在使用selenium时候,难免会遇到需要处理中文的情况。毕竟咱们是在中国,做的产品大都也是和中文有强烈联系的。
举例:打开好搜。搜索“灵魂摆渡”,找到类名为:‘g-mohe ’的类。然后退出。
代码如下:
driver = ()
driver.maximize_window()
("")
q = '灵魂摆渡'
driver.find_element_by_name("q").send_keys(q)
driver.find_element_by_name("q").submit()
driver.find_element_by_class_name('g-mohe ')
()
代码看起来是没问题的,但是执行之后会报错:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe7 in position 0: unexpected end of data
这是什么意思?在python2.7+selenium中,使用utf-8编码的中文作为参数调用send_keys()方法。
utf8编码不能按照我们预期的填入对应的搜索框内。怎么办呢?
在这里,我们可以使用解码的方式,把utf8编码变为unicode。得到解决。
具体步骤:
把代码中的driver.find_element_by_name("q").send_keys(q)
修改为:driver.find_element_by_name("q").send_keys(())
或者你喜欢写成:dirver.find_element_by_name("q").send_keys(u'灵魂摆渡')
也是可以的。你开心就好。
顺带一提decode方法,默认的参数就是'utf8'。所以如果你的中文字符串使用的本来就是utf8编码。那么就不用添加参数。
如果你的中文字符串是GBK编码的,记得在使用decode方法时,写为:decode('GBK')