我们见到的正常的url地址应该是长这个样子的,。但是也有一些url地址经过编码了,如长成这样的https%3A%2F%%2Fdoc%2Fpdf%2F03%2F000010%2F001636%2F2020%2F03%2F21%%3Fsign%3D6f8799f678c86acb7b5b6802e345c0d5%26t%3D1650180644。经过编码的地址在浏览器上直接访问是不通的,只有通过解码,还原真实的url地址才行。
在python3中,可以通过模块的unquote方法对url地址进行解码。
from urllib import parse
url = 'https%3A%2F%%2Fdoc%2Fpdf%2F03%2F000010%2F001636%2F2020%2F03%2F21%%3Fsign%3D6f8799f678c86acb7b5b6802e345c0d5%26t%3D1650180644'
u = parse.unquote(url)
print(u)
输出结果:
https://document-cdn.yxtxcsq.com/doc/pdf/03/000010/001636/2020/03/21/9e6ddc29c6028b34cd57126f8d1d0c78.pdf?sign=6f8799f678c86acb7b5b6802e345c0d5&t=1650180644