文件名称:CNKI-download:知网(CNKI)文献下载及文献速览爬虫
文件大小:14KB
文件格式:ZIP
更新时间:2024-05-22 09:27:50
Python
CNKI_download 中国知网爬虫 项目是基于Python3 实现的爬取知网数据的爬虫,可根据知网高级检索进行搜索,提供文献基本信息、文献下载、文献摘要等详细信息爬取功能。 实现过程可以查看 程序运行如下: 详细信息excel表格如下: 下载caj如下: 特点 通过发送解析包形式抓取数据,相比于使用selenium等方式性能稍高一些。 可使用知网高级检索功能进行搜索,更高效检索文献。 可根据网络及知网反爬虫情况选择性开启详细信息抓取及下载caj文献功能。 利用excel表格快速查看所需文献摘要等信息,可根据excel提供下载链接选择性下载,防止下载过快导致知网反爬。 使用方法 安装依赖 在验证码处理部分使用了tesserocr,不过验证效果目前不是很好,所以默认开启手动识别验证码。 如果本地没有安装tesseract,可以先安装这个,再执行pip install tesserocr
【文件预览】:
CNKI-download-master
----.gitignore(1KB)
----requirements.txt(320B)
----Config.ini(133B)
----LICENSE(1KB)
----README.md(3KB)
----userinput.py(4KB)
----GetConfig.py(2KB)
----main.py(10KB)
----CrackVerifyCode.py(3KB)
----.gitattributes(66B)
----GetPageDetail.py(7KB)