python标准库 difflib-比较序列

# -*- coding: utf-8 -*-

# python:2.x

__author__ = 'Administrator'

#difflib比较序列

#版本2.1及之后

#作用：包含一些用来计算和处理序列之间差异工具，对文本特别有用，其中包含函数可以使用多种常用差异格式生成报告

#比较文本体

#Differ类用于处理文本序列，生成人类可读的差异或者更改指令，包括中的差异，Differ生成默认输出与unix下的diff命令工具类似，包括2个列表原始输入值

"""

”—— ” 行序列1所特有的

“+ ” 行序列2所特有的

” ” 行共同序列

”? ” 线不是出现在输入序列

如果某一行在不同版本之间存在增量差异，会使用一个'?'为前缀额外行强调新版本中变更

如果一行未改变，会输出该行，而且其左边有一个额外的空格，使它与其他可能有差异输出对齐

"""

#compare()可以先分解为由单个文件行构成序列，与传入大字符串相比，这样可以生成更可读输出

import difflib

from difflib_date import *

d=difflib.Differ()

diff=d.compare(text1_lines,text2_lines)

print '\n'.join(diff)

#ndiff()函数生成输出基本上相同，会特别加工来处理文本数据，并删除输入中噪声

diff=difflib.unified_diff(text1_lines,text2_lines,lineterm='',)

print '\n'.join(diff)

#lineterm参数会告诉unified_difff()不必为它返回控制行追加换行符，因为输入行不包括这些换行符，输出时所有行都会增加换行符，对于subversion或者其他版本控制工具用户来说,很熟悉

#context_diff()生成类似可读输出

#无用数据

from difflib import SequenceMatcher

A = " abcd"

B = "abcd abcd"

print 'A = %r' % A

print 'B = %r' % B

print '\nWithout junk detection:'

s = SequenceMatcher(None, A, B)

i, j, k = s.find_longest_match(0, 5, 0, 9)

print ' i = %d' % i

print ' j = %d' % j

print ' k = %d' % k

print ' A[i:i+k] = %r' % A[i:i+k]

print ' B[j:j+k] = %r' % B[j:j+k]

print '\nTreat spaces as junk:'

s = SequenceMatcher(lambda x: x==" ", A, B)

#i, j, k = s.find_longest_match(0, 5, 0, 9)

print ' i = %d' % i

print ' j = %d' % j

print ' k = %d' % k

print ' A[i:i+k] = %r' % A[i:i+k]

print ' B[j:j+k] = %r' % B[j:j+k]

#默认情况下,Differ不会忽略任何行或者字符，而会依赖SequenceMatcher的能力检测噪声，ndiff()默认行为是忽略空格和制作符(tab)

#比较任何类型(重点)

#SequenceMatcher类型用于比较任意类型的2个序列，可要它们的值可散行的

s1=[1,2,3,5,6,4]

s2=[2,3,5,4,6,1]

print 's1=',s1

print 's2=',s2

print 's1==s2',s1==s2

matchr=difflib.SequenceMatcher(None,s1,s2)

for tag, i1, i2, j1, j2 in reversed(matchr.get_opcodes()):

if tag=='delete':

print 'remove%s from positions[%d:%d]'%(s1[i1:i2],i1,i2)

elif tag=='equal':

print 's1[%d:%d] and s2[%d:%d]'%(i1,i2,j1,j2)

elif tag=='insert':

print '%s s2[%d:%d] and %d'%(s2[j1:j2],j1,j2,i1)

s1[i1:i2]=s2[j1:j2]

elif tag=='replace':

print '%s s2[%d:%d] and %s s2[%d:%d]'%(s1[i1:i2], i1, i2, s2[j1:j2], j1, j2)

s1[i1:i2] = s2[j1:j2]

print 's1=',s1

print 's2=',s2

print 's1==s2',s1==s2

#get_opcodes()得到将原列表转换为新列表的指令

#官方文档：https://docs.python.org/2.7/library/difflib.html?highlight=difflib#difflib

#对这部分算法进行讨论:http://pymotw.com/2/articles/text_processing.html#article-text-processing

秒客网

python标准库 difflib-比较序列

相关文章