Spark流处理项目介绍

时间：2022-05-28 20:49:07

项目介绍

像打开京东网站，网站会记录用户的行为，然后对行为进行分析，以便做出像推荐系统一样的功能。

流程：

用户广告点击行为（通过JS或者本地代码发送点击行为到服务器）-》

Server接受到数据并把数据放在Flume的监控目录之下-》

Flume感知到数据后会把数据放到Kafka中-》

Spark Streaming感知到数据的到来并进行处理-》

然后把流处理的结果交给例如HBase、Redis、MaySQL等-》

通过J2EE等技术把分析结果展示出来并改善业务

数据建模

考虑的内容有：

1，有效的广告点击行为过滤；

2，广告的排名，全局性的排名和区域性的广告排名

3，广告流量的统计分析，展示每条广告点击的流量的趋势

4，广告收益的统计分析

从而考虑要建立以下模型表：

1，user_information：用户表，记录用户名，用户密码，用户ID等

2, favorite_items： 推荐表

3, user_click：用户点击表

4, item_informaiton：商品信息表

5, blacklist：黑名单表

6, ad_information：广告信息表，比如说这广告在哪点击的，什么时候点击的之类的，可以将广告分类

7, top5：top表，热门广告排行

8, ad_trend：广告趋势表，为了画出广告趋势图

作业

完成广告点击的数据建模, 并通过MySQL数据库等测试模型

以上内容部分来自[DT大数据梦工厂]首席专家Spark专家王家林老师的课程分享。感谢王老师的分享，更多精彩内容请扫描关注[DT大数据梦工厂]微信公众号DT_Spark

标签：spark 项目介绍

相关文章

