python—获取字符串格式的序列的中文字符，判别和提取中文字符的方法

第一步，先把字符串转为Unicode编码：

file=str.decode('utf-8')#把utf-8的编码变成Unicode

第二步，利用正则表达式作为匹配匹配出中文（可以用来在中文文章中去除所有标点）

pattern = re.compile(u'[\u4e00-\u9fa5]+')

这句最重要，注意细节。

filterdata = re.findall(pattern, file)

这样filterdata就变了一个以非中文字符的字符分割的list。

例如：

comments1="#邢晓瑶的红包#好运说来就来！邢晓瑶 的红包中抽到了@微博电影 提供的“5元电影券”，靠谱又惊喜，快来嗨抢吧！邢晓瑶 的红包"

结果：

['邢晓瑶的红包', '好运说来就来', '邢晓瑶', '的红包中抽到了', '微博电影', '提供的', '元电影券', '靠谱又惊喜', '快来嗨抢吧', '邢晓瑶', '的红包']

---分割线---

a=[]
for i in filterdata:
    i=i.replace('动画表情','')
    i = i.replace('照片', '')
    i = i.replace('壁纸', '')
    a.append(i)

print(a)
cleaned_comments = ''.join(a)

如果想要把某些特定的字符串去掉，可以如上

如果想把列表变为字符串还可以如上。

秒客网

python—获取字符串格式的序列的中文字符，判别和提取中文字符的方法

相关文章