文件名称:twitter-crawler:Twitter的REST和STREAMING搜寻器(java)
文件大小:52KB
文件格式:ZIP
更新时间:2024-02-27 05:05:35
java streaming twitter rest twitter4j
推特爬虫 可配置的Twitter爬网程序(基于Java)可用于通过REST和STREAMING端点以及基于收集数据。 新闻(21/9/2017) :可用的搜寻器版本0.5,可以为两个STREAMING端点搜寻器(关键字过滤的搜寻器和边界框过滤的搜寻器)配置已搜寻的推文到磁盘的存储频率。 通过属性文件,用户可以设置要在内存中保留的已爬网推文的最大数量,然后再将它们刷新到磁盘文件中。 这样,避免了过多的磁盘写操作(因为它们被分组为突发)。 以下是两个STREAMING端点搜寻器(关键字过滤的搜寻器和边界框过滤的搜寻器)的属性文件的描述中的更多详细信息。 核心功能: 时间轴,基于关键字和基于用
【文件预览】:
twitter-crawler-master
----.gitattributes(44B)
----src()
--------main()
----README.md(18KB)
----pom.xml(3KB)
----.gitignore(76B)
----semeval2018task2TwitterCrawlerHOWTO.md(4KB)