文件名称:KanjiSpider:一个非常简单,远非完美的网络爬虫
文件大小:3KB
文件格式:ZIP
更新时间:2024-05-18 19:03:01
Python
汉字蜘蛛 一个非常简单,远非完美的Web搜寻器。 它使用SQLite3存储已爬网的数据并成功处理周期。 它只是忽略标记格式错误的页面。 用法: $ git clone https://github.com/kanji2012/KanjiSpider $ cd KanjiSpider $ python KanjiSpider.py Enter a URL: http://www.wikipedia.com ... 将在当前目录中创建一个名为mydbSQLite3 DB文件,以后可能会查询该文件以获得乐趣和收益。 该表称为data ,并且urls列包含(出乎意料地)URL, score列用于衡量此特定URL的“知名度” –得分越大,URL链接到的页面越著名。 PS:这是一个相对较新的Python尝试。 因此,请保持一颗轻松的心:)
【文件预览】:
KanjiSpider-master
----KanjiSpider.py(5KB)
----README.md(805B)