【文件属性】:
文件名称:aristotle:高度可定制的新闻收集器
文件大小:150KB
文件格式:ZIP
更新时间:2021-05-06 23:58:22
python metadata parser crawler news
Aristotle是一个高度可定制的工具,可从站点收集链接。
使用配置文件中的属性,它将扫描所有定义的站点,并将站点的元数据[标题,说明,imageLink,publishDate]保存在数据库中。
用法
config / properties.yaml
这些设置基本上是:
database:当前,支持此列表(( ))中的数据库。 在此处输入将存储链接的DB的设置。 对于name属性,必须在DB中创建一个数据库,并且必须在此参数中输入其名称。
区域设置:根据要获取的站点的语言,必须在此处输入要本地化的功能。 例如,用英语输入en_EN。
request:请求的一般功能。
解析器:在解析阶段,如果需要,标题和描述字符串可以根据给定的参数进行修剪
database :
dialect : mysql+pymysql
url : localhost
port : 330
【文件预览】:
aristotle-master
----.gitignore(48B)
----requirements.txt(71B)
----aristotle.png(122KB)
----LICENSE(34KB)
----aristotle()
--------crawler.py(3KB)
--------db.py(1KB)
--------properties_parser.py(1KB)
--------connection.py(1KB)
--------tests()
--------util.py(866B)
--------meta_parser.py(2KB)
--------config()
--------link_parser.py(2KB)
--------entity.py(963B)
--------itest()
--------main.py(575B)
--------settings.py(1KB)
--------news.py(6KB)
----README.md(3KB)