文件名称:01.内涵段子.zip
文件大小:6KB
文件格式:ZIP
更新时间:2023-04-14 20:41:14
爬虫 re urllib
内涵段子脑筋急转弯抓取 网址:http://www.neihan8.com 步骤: 1. 找URL规律 1.第1页:https://www.neihan-8.com/njjzw/index.html 2.第2页:https://www.neihan-8.com/njjzw/index_2.html 3.第3页:https://www.neihan-8.com/njjzw/index_3.html ... 除第1页 "https://www.neihan-8.com/njjzw/index_n.html" 2. 用正则匹配出题目和答案 每条急转弯结构:
正则表达式: p = re.compile(r'(.*?)
',re.S)
3. 代码
1. 发请求
2. 用正则匹配
3. 保存爬取内容
【文件预览】:
01.内涵段子
----__pycache__()
--------getheaders.cpython-36.pyc(7KB)
----getheaders.py(8KB)
----neihanduanzi.py(2KB)
----readme.txt(1KB)