杰瑞科技汇

Python中文字符串split如何正确分割?

对于绝大多数情况,Python 的内置 str.split() 方法可以直接完美地处理中文字符串,无需任何特殊设置。

你只需要像处理英文字符串一样,将中文字符串和分隔符作为参数传入即可。


基本用法:按单个字符分割

这是最常见的情况,比如按逗号、空格、顿号等分割中文字符串。

示例 1:按逗号分割

# 定义一个包含逗号分隔的中文字符串
chinese_str = "苹果,香蕉,橙子,葡萄"
# 使用 split(',') 进行分割
fruits_list = chinese_str.split(',')
# 打印结果
print(f"原始字符串: {chinese_str}")
print(f"分割后的列表: {fruits_list}")
print(f"列表类型: {type(fruits_list)}")

输出:

原始字符串: 苹果,香蕉,橙子,葡萄
分割后的列表: ['苹果', '香蕉', '橙子', '葡萄']
列表类型: <class 'list'>

可以看到,split 方法成功地将中文字符串按逗号分割成了一个包含多个中文字符串的列表。

示例 2:按空格分割

chinese_str = "这是一个 测试 字符串"
word_list = chinese_str.split(' ')
print(word_list)

输出:

['这是一个', '测试', '字符串']

示例 3:按多个字符分割(如中文顿号、句号)

chinese_str = "苹果;香蕉、橙子,葡萄"
# 可以使用不同的分隔符多次调用 split,或者使用 re.split
# 这里展示多次调用
list1 = chinese_str.split(';')
list2 = [item for sublist in [s.split('、') for s in list1] for item in sublist]
list3 = [item for sublist in [s.split('。') for s in list2] for item in sublist]
print(list3)

输出:

['苹果', '香蕉', '橙子', '葡萄']

更优雅的方式是使用正则表达式 re.split,我们将在后面讲到。


进阶用法:按空格分割(中英文混合)

这是一个需要特别注意的场景,中文文本通常不像英文那样用单个空格分隔词语,而是连续使用多个空格来进行对齐或分隔。

问题场景

# 注意字符串中有多个连续的空格
chinese_str = "你好    世界,   Python  很棒!"
# 如果直接使用不带参数的 split(),它会按任意空白字符(空格、\t、\n等)分割,并忽略连续的空白
words_default = chinese_str.split()
print(f"不带参数 split() 的结果: {words_default}")

输出:

不带参数 split() 的结果: ['你好', '世界,', 'Python', '很棒!']

你会发现,多个连续的空格被当作一个分隔符使用了,并且结果中没有空字符串,这通常是我们期望的行为

如果想保留分割后的空字符串

如果你确实希望保留由连续分隔符产生的空字符串,你需要向 split() 传递一个空字符串 作为分隔符(注意:不是空格 )。

chinese_str = "你好    世界,   Python  很棒!"
# 传递空字符串 '' 作为分隔符
words_with_empty = chinese_str.split('')
# 这会报错!
# ValueError: empty separator

重要提示: str.split() 的分隔符参数不能是空字符串 ,否则会抛出 ValueError,这是它与 re.split() 的一个重要区别。

如何实现按单个空格分割并保留空字符串呢? 答案是使用 正则表达式re.split()

import re
chinese_str = "你好    世界,   Python  很棒!"
# 使用正则表达式 \s+ 来匹配一个或多个空白字符
# 这和不带参数的 split() 效果一样
words_re_1 = re.split(r'\s+', chinese_str)
print(f"re.split(r'\\s+', ...) 的结果: {words_re_1}")
# 使用正则表达式 ' ' 来精确匹配单个空格
# 这样就能保留由连续空格产生的空字符串
words_re_2 = re.split(r' ', chinese_str)
print(f"re.split(r' ', ...) 的结果: {words_re_2}")

输出:

re.split(r'\s+', ...) 的结果: ['你好', '世界,', 'Python', '很棒!']
re.split(r' ', ...) 的结果: ['你好', '', '', '', '世界,', '', '', 'Python', '', '很棒!']

从上面的例子可以看出:

  • str.split()re.split(r'\s+', ...) 行为一致,适合处理自然语言文本。
  • re.split(r' ', ...) 会严格按照单个空格进行分割,并保留空字符串,这在处理固定格式的数据时可能有用。

高级用法:按复杂模式分割(如中英文标点混合)

当分隔符不再是简单的单个字符,而是多种标点符号的混合时,str.split() 就显得力不从心了,这时,正则表达式 是最强大的工具。

示例:同时用逗号、分号、句号分割

import re
chinese_str = "苹果,香蕉;橙子.西瓜、葡萄"
# 使用正则表达式创建一个字符集 [,...;。、] 来匹配任意一个这些分隔符
# re.split 会用这个模式作为分隔符进行分割
fruits_list = re.split(r'[,,;。、]', chinese_str)
print(f"原始字符串: {chinese_str}")
print(f"re.split 分割后的结果: {fruits_list}")

输出:

原始字符串: 苹果,香蕉;橙子.西瓜、葡萄
re.split 分割后的结果: ['苹果', '香蕉', '橙子', '西瓜', '葡萄']

这个 [,,;。、] 的模式表示“匹配逗号、中文逗号、分号、句号、顿号中的任意一个”。


总结与对比

方法 用法 适用场景 特点
str.split(sep=None) my_str.split()my_str.split(',') 按单个、固定的字符(如 )
按任意空白字符分割(自然语言文本)
简单、高效sep=None 时,会自动处理连续空白,不产生空字符串。sep 不能为空字符串 。
str.split(sep=' ') my_str.split(' ') 需要严格按单个空格分割,并保留可能产生的空字符串。 不常用,因为通常我们不希望保留空字符串。
re.split(pattern, str) re.split(r'[,,;。、]', my_str) 分隔符是多种字符的混合,或者需要复杂的匹配规则(如按空格分割但保留空串)。 功能最强大、最灵活,可以使用正则表达式定义复杂的分隔模式。

最佳实践建议

  1. 优先使用 str.split():如果你的分隔符是明确的单个字符(如逗号、冒号),或者你只是想按空格分割一段中文文本,直接用 str.split() 是最简单、最直接、性能最好的选择。

  2. 拥抱 re.split():当你的分隔符不固定,是多种符号的混合(),或者你需要更精细的控制(比如按单个空格分割并保留空结果)时,毫不犹豫地使用 re.split()

希望这个详细的解释能帮助你完全理解在 Python 中如何处理中文字符串的分割问题!

分享:
扫描分享到社交APP
上一篇
下一篇