Twitter_sent_analysis

时间:2024-06-10 13:23:48
【文件属性】:

文件名称:Twitter_sent_analysis

文件大小:51KB

文件格式:ZIP

更新时间:2024-06-10 13:23:48

Java

Twitter_sent_analysis Apache Flume被用作从Twitter提取数据的媒介。 槽配置文件附加在存储库中。 需要在Twitter中创建一个开发人员帐户,以获取访问令牌和密码。 在属性文件中,您需要提及要基于其提取推文的关键字。 flume提取的数据为json格式,并包含json格式的所有与用户和tweet相关的信息。 我在这里使用的接收器是hdfs,所有数据都在其中转储。 接下来,我们根据从twitter提取的数据创建一个配置单元外部表(tweets_apple)。 相同的配置单元脚本已上载到存储库中。 再次,我们创建一个仅包含用户名,时间和tweet的配置单元托管表(tweet)。 通过Twitter的ETL阶段,数据提取已结束。 接下来,我们需要处理和分析这些数据。 为此,我们使用mapreduce。 主要思想是处理特定时间(以分钟为单位)中的所有推文


【文件预览】:
Twitter_sent_analysis-master
----out_apple()
--------part-r-00000(51B)
--------_SUCCESS(0B)
--------._SUCCESS.crc(8B)
--------.part-r-00000.crc(12B)
----README.md(2KB)
----Utilities()
--------Stopwords.txt(3KB)
--------positive.txt(19KB)
--------negative.txt(44KB)
----Hive()
--------apple.hive(53B)
--------tweets_apple.hive(769B)
--------tweet.hive(358B)
----flume()
--------twitter_apple.properties~(1KB)
--------twitter_apple.properties(1KB)
--------flume_setUp(277B)
--------flume_setUp~(635B)
----apple(341KB)
----MapPractice()
--------.project(370B)
--------bin()
--------.settings()
--------src()
--------.classpath(5KB)

网友评论