文件名称:aristotle:高度可定制的新闻收集器
文件大小:150KB
文件格式:ZIP
更新时间:2024-05-26 17:45:02
python metadata parser crawler news
Aristotle是一个高度可定制的工具,可从站点收集链接。 使用配置文件中的属性,它将扫描所有定义的站点,并将站点的元数据[标题,说明,imageLink,publishDate]保存在数据库中。 用法 config / properties.yaml 这些设置基本上是: database:当前,支持此列表(( ))中的数据库。 在此处输入将存储链接的DB的设置。 对于name属性,必须在DB中创建一个数据库,并且必须在此参数中输入其名称。 区域设置:根据要获取的站点的语言,必须在此处输入要本地化的功能。 例如,用英语输入en_EN。 request:请求的一般功能。 解析器:在解析阶段,如果需要,标题和描述字符串可以根据给定的参数进行修剪 database : dialect : mysql+pymysql url : localhost port : 330
【文件预览】:
aristotle-master
----.gitignore(48B)
----requirements.txt(71B)
----aristotle.png(122KB)
----LICENSE(34KB)
----aristotle()
--------crawler.py(3KB)
--------db.py(1KB)
--------properties_parser.py(1KB)
--------connection.py(1KB)
--------tests()
--------util.py(866B)
--------meta_parser.py(2KB)
--------config()
--------link_parser.py(2KB)
--------entity.py(963B)
--------itest()
--------main.py(575B)
--------settings.py(1KB)
--------news.py(6KB)
----README.md(3KB)