Python文本处理——中文标点符号处理

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法，如有更好的工具，请推荐补充。

中文标点集合

比较常见标点有这些：

！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.

调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。

如果想用英文的标点，则可调用string包的string.punctuation函数可得到： !"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~

因此，比如需要将所有标点符号去除，可以进行以下操作：

>>> import re

>>> from zhon.hanzo import punctuation

>>> line = "测试。。去除标点。。"

>>> print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8")) # 需要将str转换为unicode

测试去除标点

>>> print re.sub(ur"[%s]+" %punctuation, "", line) #将不会发生替换

测试。。去除标点。。

当然，如果想去除重复的符号而只保留一个，那么可以用\1指明：比如

>>> re.sub(ur"([%s])+" %punctuation, r"\1", line.decode("utf-8"))

如果不是用的zhon包提供的已经是unicode码的标点集，而是自己定义，那么请不要忘了转换成unicode码：

punc = "！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."

punc = punc.decode("utf-8")

直接指明标点的unicode码范围

所有字符的unicode编码可以参考这里。

大部分标点分布在以下几个范围：

Basic Latin: u'\u0020' - u'\007f'

general punctuation: u'\u2000' - u'\u206f'

CJK Symbols and Punctuation: u'\u3000' - u'\u303f'

halfwidth and fulllwidth forms: u'\uff00' - u'\uffef'

在用u'\u0020-\u007f\u2000-\u206f\u3000-\u303f\uff00-uffef'替换punctuation就能实现上述操作。

PS：中文常用字符的范围是u'\u4e00' - u'\u9fff'。匹配所以中文可以这样：

re.findall(ur"\u4e00-\u9fff", line)

小结：

基本标点符号的处理和上中文的文本处理一样需要转换成unicode码，而且需要注意的是中文的格式比较多，每种格式对应的unicode码都是不同的，比如半角和全角的符号就是不同的unicode码。
由于标点符号在断句以及情感语气判断时比较重要，尤其是在网络短文本上尤其如此。在断句的时候可以在固定的full stop符号(！？｡)基础上自己添加诸如~和，等获得自己想要的分句；而在情感分析的时候获取诸如!?...等符号的连续出现的长度可用于判断当前的语气强度。

参考：

秒客网

Python文本处理——中文标点符号处理

相关文章