文件名称:ustcbbs-archiver:存档 ustcbbs 帖子的脚本
文件大小:8KB
文件格式:ZIP
更新时间:2024-06-26 04:20:50
Python
ustcbbs-archiver --- Scripts to archive ustcbbs posts. 使用 Python 作为爬虫,获取 ustcbbs 的信息存入本地。 仍然处在开发中。 当前成果 可以将指定板块的所有文章的标题、链接、原始 HTML 源代码存入数据库。 使用示例 ./download.py --help 可以查看使用方式 ./download.py -i -b * -s 1 -o /dev/shm/archive.db 工具 python3+requests+bs4 sqlite3 思路 建议在网络环境良好的地方进行下载 正文区 由 http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linux 的文章数获取当前版面最大文章值 由 http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linu
【文件预览】:
ustcbbs-archiver-master
----.gitignore(22B)
----README.md(1KB)
----LICENSE(1KB)
----download.py(2KB)
----exec.py(125B)
----arctl.py(43B)
----bbsarchiver()
--------config.py(1KB)
--------libbbsarchiver.py(10KB)
--------Database.py(353B)
--------__init__.py(100B)