【文件属性】:
文件名称:WeiboPredict:感谢大家的pull request
文件大小:8.2MB
文件格式:ZIP
更新时间:2021-05-01 08:02:33
Python
新浪微博预测大赛仓库
比赛相关内容请见:
更多内容请见Wiki:
##致谢
感谢 @lightslife 提供R语言的实现
感谢 @DeanChan 提供的更多赛题数据
#赛题数据备忘
训练数据由\t依次分隔为:用户id, 微博id, 时间, 转发数, 评论数, 赞数, 内容
预测数据由\t依次分隔为:用户id, 微博id, 时间, 内容
#关于赛题的数据
训练数据共有45671不同的用户发布的1626750条微博
预测数据共有24818不同的用户发布的275331条微博
两文件用户有23603交集,根据作差计算得出,预测数据有1215个从未出现过的新用户
额外地,共同存在的用户在训练数据共发布了1335158条微博
共同存在的用户在预测数据共发布了265042条微博
我们将基本没人点赞的用户定义为垃圾用户(无歧视),则有21035个垃圾用户
#文件说明
utrain.txt训练用户列表(
【文件预览】:
WeiboPredict-master
----fetchpredictuser.py(347B)
----fork.txt(761KB)
----sameusr.py(708B)
----upredict.txt(800KB)
----findrubbishusr.py(1KB)
----weibo_result_data.txt(18.91MB)
----fork.py(579B)
----fetch.py(347B)
----pregen.py(291B)
----DGStorage.py(25KB)
----count.py(184B)
----test.py(107B)
----rubbishuser.txt(678KB)
----fetchpartuser.py(494B)
----fetchtrainuser.py(343B)
----utrain.txt(1.44MB)
----README.md(2KB)
----segment.R(4KB)