JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。 易于人阅读和编写,同时也易于机器解析和生成。
写爬虫程序时发现页面很多内容都是基于json传输的,而且都是unicode编码,需要读取并转换为汉字,这可以直接使用python的json包处理
python的json.dumps方法默认会输出成这种格式"\u535a\u5ba2\u56ed",
。
要输出中文需要指定ensure_ascii参数为False,如下代码片段:
json.dumps({'text':"中文"},ensure_ascii=False)
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××
json的一个简单示例为:
{ "firstName":"Bill" , "lastName":"Gates" }
其中“firstName”和”lastName“为健(key),“Bill”和“Gates”为值(value)
首先需要导入json包
import json
使用
info = json.JSONDecoder().decode(info)
可以读取json数据,同时将unicode转换为汉字
使用
info["firstName"]
来读取健”firstName"所对应的值“Bill”