Python difflib 如何处理中文文本比较？-杰瑞科技汇

difflib 是 Python 标准库中的一个强大工具，主要用于比较序列（尤其是字符串）之间的差异，它能生成多种格式的差异报告，非常适合用于代码比较、文档版本对比、文本差异高亮等场景。

（图片来源网络，侵删）

核心概念

在开始之前,我们先了解 difflib 中几个最常用的类和函数：

difflib.SequenceMatcher:
- 这是 difflib 的核心类，它通过一个复杂的算法来找到两个序列（可以是字符串、列表等）之间的“最长公共子序列”（Longest Common Subsequence, LCS）。
- 它不直接生成人类可读的文本差异,而是生成一个“操作码”（opcode）列表，描述如何将第一个序列转换为第二个序列，这些操作码可以被其他工具（如 HtmlDiff）用来生成可视化差异。
difflib.Differ:
- 这个类专门用于比较字符串列表（通常是按行分割的文本）。
- 它生成一个差异的“delta”字符串，其中每一行都带有前缀，表示该行的状态：
  - 两行相同
  - 第一行独有的行
  - 第二行独有的行
  - 行内差异的标记（需要配合 Differ.compare() 的特定用法）
  - '^ '：行内差异的标记
difflib.ndiff:
（图片来源网络，侵删）
- 这是一个方便的函数,是 Differ().compare() 的封装，用法更简单。
difflib.HtmlDiff:

一个非常有用的类,用于生成一个 HTML 格式的差异报告，它会并排显示两个文本，并用不同颜色高亮显示增加、删除和修改的行，非常适合在网页上展示差异。

中文处理的关键问题：编码

在使用 difflib 处理中文文本时，最核心、最需要注意的问题是字符编码。

在 Python 3 中，字符串默认是 Unicode 编码，这极大地简化了多语言文本的处理，只要你确保你的源文件和程序运行环境正确处理了编码，difflib 本身可以无缝处理中文字符。

最佳实践：

源文件编码: 将你的 Python 源代码文件保存为 UTF-8 编码，这是目前最通用的做法，在文件开头加上 # -*- coding: utf-8 -*- 是一个好习惯，虽然 Python 3 在很多情况下可以自动识别。

文件读写: 在从文件读取文本或写入文本时，明确指定编码为 utf-8。

# 读取文件
with open('file1.txt', 'r', encoding='utf-8') as f:
    text1 = f.read()
# 写入文件
with open('diff_report.txt', 'w', encoding='utf-8') as f:
    f.write(diff_result)

如果你不指定编码,Python 可能会使用系统的默认编码（在中文 Windows 上通常是 gbk），这会导致读取 UTF-8 文件时出现 UnicodeDecodeError。

实战示例

下面我们通过几个例子来演示如何使用 difflib 处理中文文本。

示例 1：使用 `Differ` 比较两段文本（按行）

这是最基础的用法,适合比较两个文档的版本差异。

import difflib
# 原始文本
text1 = """第一段
这是第一版的内容。
包含了中文和 English。
欢迎来到 Python 世界。"""
# 修改后的文本
text2 = """第一段
这是第二版的内容。
包含了中文和 English。
欢迎来到 difflib 世界。
新增了这一行。"""
# 将文本按行分割成列表
lines1 = text1.splitlines(keepends=True)
lines2 = text2.splitlines(keepends=True)
# 使用 Differ 进行比较
differ = difflib.Differ()
diff = differ.compare(lines1, lines2)
# 打印差异结果
print("".join(diff))

输出结果：

  第一段
- 这是第一版的内容。
+ 这是第二版的内容。
  包含了中文和 English。
  欢迎来到 Python 世界。
+ 欢迎来到 difflib 世界。
+ 新增了这一行。

解读:

` ` (空格): "第一段" 和 "包含了中文和 English。" 在两个版本中都存在。
(减号): "这是第一版的内容。" 只在 text1 中存在。
(加号): "这是第二版的内容。"、"欢迎来到 difflib 世界。" 和 "新增了这一行。" 只在 text2 中存在。

示例 2：使用 `HtmlDiff` 生成可视化 HTML 报告

这个例子能生成一个美观的 HTML 文件，在浏览器中打开后可以直观地看到差异。

import difflib
text1 = """你好，世界！
Python 是一门很棒的语言。
我们用它来处理文本差异。"""
text2 = """你好，世界！
Python 是一门非常棒的语言。
我们用它来处理文本差异。
这是新增加的一行。"""
# 创建 HtmlDiff 实例
html_diff = difflib.HtmlDiff()
# 生成 HTML 报告
# make_file 会将两个文本列表进行比较，并生成一个完整的 HTML 页面
diff_html = html_diff.make_split_table(
    text1.splitlines(), 
    text2.splitlines(),
    fromdesc="版本 1",
    todesc="版本 2"
)
# 将 HTML 写入文件
with open('diff_report.html', 'w', encoding='utf-8') as f:
    f.write(diff_html)
print("HTML 差异报告已生成：diff_report.html")

运行后,用浏览器打开 diff_report.html，你会看到一个类似下面这样的表格（这里是模拟的文本描述）：

版本 1	版本 2
你好，世界！	你好，世界！
Python 是一门很棒的语言。	Python 是一门非常棒的语言。
我们用它来处理文本差异。	我们用它来处理文本差异。
	这是新增加的一行。

HtmlDiff 会自动处理颜色，比如绿色表示新增，红色表示删除，黄色背景表示修改。

示例 3：使用 `SequenceMatcher` 查找差异并高亮

如果你想在一个字符串内部高亮显示差异,而不是按行比较，SequenceMatcher 是更好的选择，这需要我们自己解析操作码来实现。

import difflib
def highlight_diff(a, b):
    """
    比较两个字符串，并返回一个带有 HTML 高亮标记的字符串。
    """
    # 创建一个 SequenceMatcher 实例
    matcher = difflib.SequenceMatcher(None, a, b)
    result = []
    # 遍历操作码
    for tag, i1, i2, j1, j2 in matcher.get_opcodes():
        if tag == 'equal':
            # 相同部分，直接添加
            result.append(a[i1:i2])
        elif tag == 'delete':
            # 删除部分，用 <del> 标记
            result.append(f'<del>{a[i1:i2]}</del>')
        elif tag == 'insert':
            # 插入部分，用 <ins> 标记
            result.append(f'<ins>{b[j1:j2]}</ins>')
        elif tag == 'replace':
            # 替换部分，删除部分用 <del>，插入部分用 <ins>
            result.append(f'<del>{a[i1:i2]}</del><ins>{b[j1:j2]}</ins>')
    return "".join(result)
# 原始字符串
str1 = "我爱北京天安门"
# 修改后的字符串
str2 = "我爱美丽的北京天安门"
# 生成高亮差异
highlighted_str = highlight_diff(str1, str2)
# 打印结果
print(highlighted_str)
# 输出: <ins>美丽的</ins>我爱北京天安门
# 注意：这个简单的例子逻辑是“替换”，但结果看起来像“插入”。
# 更精确的输出应该是：<del></del><ins>美丽的</ins>我爱北京天安门
# 让我们修正一下 highlight_diff 函数，使其更准确
def highlight_diff_v2(a, b):
    matcher = difflib.SequenceMatcher(None, a, b)
    result = []
    for tag, i1, i2, j1, j2 in matcher.get_opcodes():
        if tag == 'equal':
            result.append(a[i1:i2])
        elif tag == 'delete':
            result.append(f'<del>{a[i1:i2]}</del>')
        elif tag == 'insert':
            result.append(f'<ins>{b[j1:j2]}</ins>')
        elif tag == 'replace':
            # 替换意味着先删除 a 的部分，再插入 b 的部分
            result.append(f'<del>{a[i1:i2]}</del><ins>{b[j1:j2]}</ins>')
    return "".join(result)
highlighted_str_v2 = highlight_diff_v2(str1, str2)
print(highlighted_str_v2)
# 输出: <del></del><ins>美丽的</ins>我爱北京天安门
# 这个结果更准确，表明在开头位置进行了替换（删除了空，插入了“美丽的”）

总结与建议

场景	推荐工具	说明
比较两个文件或文本块（按行）	`difflib.Differ` 或 `difflib.ndiff`	生成命令行风格的差异报告，适合日志、版本控制等。
生成网页可视化差异报告	`difflib.HtmlDiff`	非常直观，适合在网页上展示差异，用户体验好。
在单个字符串内高亮差异	`difflib.SequenceMatcher` + 自定义逻辑	灵活性最高，可以自定义高亮样式（HTML、ANSI 颜色等），但需要更多代码。
查找最相似的匹配项	`difflib.get_close_matches`	虽然不是直接比较差异，但也是 `difflib` 的常用功能，非常适合搜索和模糊匹配。

核心要点：

编码第一: 始终使用 utf-8 编码来读写和处理中文文件，这是避免乱码和 UnicodeDecodeError 的关键。
按行 vs. 按字符: 根据你的需求选择合适的工具，比较文档用 Differ，比较单个字符串的修改用 SequenceMatcher。
善用 HtmlDiff: 对于需要向用户展示差异的场景，HtmlDiff 是最省心、效果最好的选择。

difflib 功能强大且是标准库的一部分，无需安装任何额外依赖，掌握它，你就能在 Python 中游刃有余地处理各种文本比较任务。

Python difflib 如何处理中文文本比较？