引言:在python中提供了json包来方便快捷的解析json字串的转换过程,但是碰到了一个比较奇怪的问题,就是不太正确的json串如何来解析?
1. 问题的提出
今天在处理一个http请求的响应json之时,基于python进行解析,碰到了如下错误:
Traceback (most recent call last):看来是解析json的时候出错了....
File "<ipython-input-16-bff463ed9408>", line 1, in <module>
json.loads(r.text)
File "/Users/tonychen/anaconda2/lib/python2.7/json/__init__.py", line 339, in loads
return _default_decoder.decode(s)
File "/Users/tonychen/anaconda2/lib/python2.7/json/decoder.py", line 364, in decode
obj, end = self.raw_decode(s, idx=_w(s, 0).end())
File "/Users/tonychen/anaconda2/lib/python2.7/json/decoder.py", line 380, in raw_decode
obj, end = self.scan_once(s, idx)
ValueError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)
代码如下:
import jsonimport requestsuser_agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"def get_header(): return { 'User-Agent': user_agent, 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en-US,en;q=0.5', 'Connection': 'keep-alive', 'Accept-Encoding': 'gzip, deflate', }TEST_URL = 'http://ip.chinaz.com/getip.aspx'r = requests.get(url=TEST_URL, headers=get_header(), timeout=5)jsonstr = json.loads(r.text)print(jsonstr)报错的代码行: json.loads(r.text)
那问题出在哪里呢?
2. 问题的分析
让我们先来看看,r.text中的信息是什么吧:
>> r.text
u"{ip:'103.47.146.9',address:'\u4e9a\u592a\u5730\u533a '}"仔细观察之后,发现其实应该是ip,address的字段没有相应的引号来包装,所以json无法正确的进行字符串的处理
那正确的json串格式应该是什么样子呢?我们来做个样例看一下
>> json1 = {'key1': 'val1', 'key2':'val2'}
>> json.dumps(json1)
'{"key2": "val2", "key1": "val1"}'正如我们在上文中提到的问题,应该是key没有正确的被括起来。
3. 问题的解决
知道问题出在哪里之后,我们就可以针对性地进行解决了。问题的解决思路有两条:
a. 针对字符串来进行处理,保证字符串符合json的格式要求
b. 借助第三方包的帮助顺利解决这个问题
相比而言,方案b可以简便和易用,我们这里使用了demjson的包来处理这个问题。
安装: pip install demjson
使用: json_obj = demjson(json_string)
简单的一个调用就将这个问题一扫而光,是不是非常的简单易用呀?
4. demjson的介绍
快速说明: http://deron.meranda.us/python/demjson/
demjson有两个主要的方法:
- encode 编码,将对象转换为json
- decode 解码,将json转化为对象
5. 总结
这个问题的产生主要还是服务端在进行json转换的过程中没有很好处理好这个问题造成的,正常来说,一般不应该出现的的。