【文件属性】:
文件名称:ustcbbs-archiver:存档 ustcbbs 帖子的脚本
文件大小:8KB
文件格式:ZIP
更新时间:2021-06-06 10:34:10
Python
ustcbbs-archiver
--- Scripts to archive ustcbbs posts.
使用 Python 作为爬虫,获取 ustcbbs 的信息存入本地。
仍然处在开发中。
当前成果
可以将指定板块的所有文章的标题、链接、原始 HTML 源代码存入数据库。
使用示例
./download.py --help 可以查看使用方式
./download.py -i -b * -s 1 -o /dev/shm/archive.db
工具
python3+requests+bs4
sqlite3
思路
建议在网络环境良好的地方进行下载
正文区
由 http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linux 的文章数获取当前版面最大文章值
由 http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linu
【文件预览】:
ustcbbs-archiver-master
----.gitignore(22B)
----README.md(1KB)
----LICENSE(1KB)
----download.py(2KB)
----exec.py(125B)
----arctl.py(43B)
----bbsarchiver()
--------config.py(1KB)
--------libbbsarchiver.py(10KB)
--------Database.py(353B)
--------__init__.py(100B)