文件名称:Data-pipeline-for-Sina-Weibo-Interaction-prediction:新浪微博互动预测的数据管道
文件大小:31.29MB
文件格式:ZIP
更新时间:2024-05-21 00:25:26
Python
新浪微博互动预测 介绍 比赛的详细信息可以在找到竞争主要是分析用户在中国微博平台上发布的行为和消息,并预测每条消息的转发,评论和喜欢的次数。 该项目主要使用python和pandas。 这项比赛的第二阶段仍在进行中。 这是我为第1阶段构建的数据基准线。 设计 这是一个自行设计的数据基准线。 主要思想是模块化数据项目的流程。 用户编写方法来生成功能,其存储数据帧中大熊猫在功能的文件夹,并feature.log会自动记录所有现有的功能和它们的参数。 用户可以在Train方法中组合不同的功能并选择不同的模型,模型将存储在models文件夹中,模型的信息将存储在train.log中。 用户选择不同的功能和参数组合进行测试,结果将存储在结果文件夹中,而测试信息将存储在test.log中 笔记本文件夹中的Ipython笔记本用于播放数据,迭代地查看日志。 该代码位于weiboPredict
【文件预览】:
Data-pipeline-for-Sina-Weibo-Interaction-prediction-master
----logs()
--------test.log(3KB)
--------features.log(2KB)
--------train.log(3KB)
----others()
--------2014-07-01_2014-11-30_100.vectorizer(10.23MB)
----stopwords()
--------百度停用词列表.txt(8KB)
--------四川大学机器智能实验室停用词库.txt(6KB)
--------哈工大停用词表.txt(4KB)
--------中文停用词库.txt(4KB)
----documents()
--------基于SVM的微博转发规模预测方法.pdf(847KB)
--------Building.Machine.Learning.Systems.with.Python.pdf(6.16MB)
--------Natural%20Language%20Processing%20with%20Python.pdf(5.19MB)
--------【试读】《机器学习实践:测试驱动的开发方法》.pdf(3.55MB)
--------S1EP3_Pandas.pdf(678KB)
--------Understanding_Retweeting_Behaviors_in_Social_Networks.pdf(881KB)
--------社交网站的数据挖掘与分析英文版.pdf(6.81MB)
--------1202.0332v1.pdf(319KB)
----.gitignore(145B)
----weiboPredict()
--------framework.py(18KB)
--------__init__.py(58B)
----.ipynb_checkpoints()
--------DataExploration-checkpoint.ipynb(293KB)
----README.md(2KB)
----notebooks()
--------features.ipynb(198KB)
--------BagOfWords.ipynb(304KB)
--------tmp.ipynb(28.46MB)
--------fenci.ipynb(97KB)
--------.ipynb_checkpoints()
--------DataExploration.ipynb(766KB)