DataEngineeringProject:示例端到端数据工程项目

时间:2024-02-24 23:49:17
【文件属性】:

文件名称:DataEngineeringProject:示例端到端数据工程项目

文件大小:880KB

文件格式:ZIP

更新时间:2024-02-24 23:49:17

python redis elasticsearch airflow kafka

数据工程项目 数据工程项目是数据管道的实现,该管道使用RSS Feed中的最新新闻,并通过方便的API供用户使用。 管道基础结构是使用流行的开源项目构建的。 在一个地方访问最新新闻和头条新闻。 :flexed_biceps: 目录 架构图 这个怎么运作 数据搜集 Airflow DAG负责执行Python抓取模块。 它每X分钟定期运行,产生微批。 第一个任务更新proxypool 。 将代理与旋转的用户代理程序结合使用可以帮助刮板通过大多数防刮擦措施,并防止被检测为刮板。 第二项任务是从配置文件中提供的RSS feed中提取新闻,验证质量并将数据发送到Kafka主题A中。 提取过程使用来自proxypool的经


网友评论