文件名称:streamer:实时Twitter Streamer附近的人群拥挤。 管道
文件大小:56KB
文件格式:ZIP
更新时间:2024-03-30 22:45:23
Python
拥挤流光 对于数据收集,Crowdbreaks利用Twitter Developer API中的流式传输终结点。 基础架构是使用Amazon Web Services(AWS)设置的。 有一个Python应用程序在AWS Fargate集群上运行,并使用(API v1.1)请求连接到相关推文的过滤流。 根据为Crowdbreaks中每个项目提供的关键字和语言过滤相关的tweet。 整个数据管道都是使用AWS设置的。 流媒体应用本身在Fargate群集上运行。 在获取这些推文之后,它将它们发送到相应的Kinesis Firehose传递流(每个项目一个),该流将每个项目的推文(带有单独的前缀)(“文件夹”)保存到Simple Cloud Storage(S3)中的存储桶中。 保存到S3的每批新推文都会触发一个事件,该事件调用Lambda函数,该函数对批处理中的推文进行预处理,进行预测并将
【文件预览】:
streamer-master
----.github()
--------workflows()
----Dockerfile(379B)
----lambda-s3-to-es()
--------s3_events()
--------run.py(1010B)
--------function()
--------layer()
----task-definition.json(6KB)
----test()
--------tweets_generator.py(2KB)
--------test_config.py(2KB)
----README.md(1KB)
----awstools()
--------setup.py(668B)
--------awstools()
----.gitignore(113B)
----lambda-es-rotation()
--------run.py(909B)
--------function()
--------layer()
----lambda-streamer-management()
--------s3_events()
--------run.py(952B)
--------function()
--------layer()
----streamer()
--------setup.py(916B)
--------streamer()