python—获取字符串格式的序列的中文字符,判别和提取中文字符的方法

时间:2021-03-02 07:41:42

第一步,先把字符串转为Unicode编码:

file=str.decode('utf-8')#把utf-8的编码变成Unicode


第二步,利用正则表达式作为匹配匹配出中文(可以用来在中文文章中去除所有标点)


pattern = re.compile(u'[\u4e00-\u9fa5]+')

这句最重要,注意细节。

filterdata = re.findall(pattern, file)

这样filterdata就变了一个以非中文字符的字符分割的list。

例如:

comments1="#邢晓瑶的红包#好运说来就来!邢晓瑶 的红包中抽到了@微博电影 提供的“5元电影券”,靠谱又惊喜,快来嗨抢吧!邢晓瑶 的红包"
结果:
['邢晓瑶的红包', '好运说来就来', '邢晓瑶', '的红包中抽到了', '微博电影', '提供的', '元电影券', '靠谱又惊喜', '快来嗨抢吧', '邢晓瑶', '的红包'] 

---分割线---

a=[]
for i in filterdata:
    i=i.replace('动画表情','')
    i = i.replace('照片', '')
    i = i.replace('壁纸', '')
    a.append(i)

print(a)
cleaned_comments = ''.join(a)

如果想要把某些特定的字符串去掉,可以如上

如果想把列表变为字符串还可以如上。