python处理中文字符串

时间:2022-01-11 07:40:59

使用tensorflow做聊天机器人时,处理数据时遇到一个问题,需要统计常用汉字,这样就需要读取中文字符串中的单个汉字并进行统计。而适用于英文字符串的方法并不适用于中文字符串,因此需要通过下述的方法来读取中文字符串中的单个汉字字符。

s = '今天天气非常好hhh'
for i in s.decode('utf-8'):
print i
#结果:
#今
#天
#天
#气
#非
#常
#好
#h
#h
#h

如果定义字符串时标明为unicode格式,则更简单。

s = u'今天天气非常好hhh'
for i in s:
print i
#结果如上