在爬取京东评论时,复制html内容,发现文本中有些空格的宽度没见过。后来用htmlParser解析html页面时,发现这些空格都被替换为 。
12288是Unicode编码,&#表示宋体, 就表示一个汉字的宽度,在浏览器中就显示为一个汉字宽度的空格。
在爬取京东评论时,复制html内容,发现文本中有些空格的宽度没见过。后来用htmlParser解析html页面时,发现这些空格都被替换为 。
12288是Unicode编码,&#表示宋体, 就表示一个汉字的宽度,在浏览器中就显示为一个汉字宽度的空格。