第一步,先把字符串转为Unicode编码:
file=str.decode('utf-8')#把utf-8的编码变成Unicode
第二步,利用正则表达式作为匹配匹配出中文(可以用来在中文文章中去除所有标点)
pattern = re.compile(u'[\u4e00-\u9fa5]+')
这句最重要,注意细节。
filterdata = re.findall(pattern, file)
这样filterdata就变了一个以非中文字符的字符分割的list。
例如:
comments1="#邢晓瑶的红包#好运说来就来!邢晓瑶 的红包中抽到了@微博电影 提供的“5元电影券”,靠谱又惊喜,快来嗨抢吧!邢晓瑶 的红包"
结果:
['邢晓瑶的红包', '好运说来就来', '邢晓瑶', '的红包中抽到了', '微博电影', '提供的', '元电影券', '靠谱又惊喜', '快来嗨抢吧', '邢晓瑶', '的红包']
---分割线---
a=[] for i in filterdata: i=i.replace('动画表情','') i = i.replace('照片', '') i = i.replace('壁纸', '') a.append(i) print(a) cleaned_comments = ''.join(a)
如果想要把某些特定的字符串去掉,可以如上
如果想把列表变为字符串还可以如上。