sozlukcrawler:不提供 API 的流行词典的标题扫描器

时间:2021-06-12 01:03:12
【文件属性】:
文件名称:sozlukcrawler:不提供 API 的流行词典的标题扫描器
文件大小:24KB
文件格式:ZIP
更新时间:2021-06-12 01:03:12
Python 字典爬虫 一种爬虫,它从流行词典(例如 Ekşisözlük、İtusözlük、Uludağsözlük)中指定的标题中获取所有条目,并将它们写入数据库。 它被开发用于学术目的,因此它不打算扫描整个字典或成为一个新的谷歌。 基本上,这个项目的出现是为了回答一些热门话题的条目是否有任何模式的问题。 例如,哪个月/年Türkiye'den siktir olup gitmek或Recep Tayyip Erdoğan为标题Türkiye'den siktir olup gitmek条目较多,人们使用最多的词是哪些,条目最多的日子与其他事件之间是否存在联系? 数据公开后,可以对其进行其他分析。 如果您有兴趣,请随时通过电子邮件或拉取您的分析想法。 我还应该注意,请在不脱掉*的情况下使用它。 我会下载整个字典,我永远不会在请求和知道/知道之间等待,如果那些人说:不要使用 ulan 月!
【文件预览】:
sozlukcrawler-master
----sozlukcrawl()
--------models.py(2KB)
--------pipelines.py(1KB)
--------spiders()
--------utils.py(300B)
--------dupefilter.py(1KB)
--------middleware.py(956B)
--------items.py(316B)
--------__init__.py(0B)
--------settings.py(4KB)
----scrapy.cfg(289B)
----LICENSE(18KB)
----__init__.py(0B)
----analysis()
--------utils.py(697B)
--------__init__.py(51B)
--------yillara_gore_girdi.py(4KB)
--------README.md(824B)
----requirements.txt(53B)
----.gitignore(2KB)
----README.md(6KB)

网友评论