文件名称:DSC180B
文件大小:3.47MB
文件格式:ZIP
更新时间:2024-02-29 07:31:36
JupyterNotebook
DSC180B 该存储库主要是试图弄清我们的主要目的,即“获得更准确的加权和公式以解决Wikipedia文章的争议”。 我们制作了一些python文件来处理与该主题相关的数据和分析。 但是我们尚未完成这项研究。 编码部分 我们正在努力生成最终使用的数据框,并对所有编码文件进行情感分析。 特别: 对于get_data.py,它的主要功能是从Wikipedia XML文件下载并提取评论部分 对于deal_withcomment.py,此python文件的主要功能是更正那些XML文件中存在的格式问题。 得到正确的格式后,我们将开始将从XML文件获得的数据帧合并到英语light dump数据中 对于english_lighdump.py,此python文件的主要功能是下载英语轻量转储数据。 考虑到效率,我们使用映射约简方法让算法变得更快。 同样在此python文件中,我们获得了将英语轻型转储数
【文件预览】:
DSC180B-main
----src()
--------get_data.py(2KB)
--------deal_withcomment.py(580B)
--------page_view.py(2KB)
--------sentiment_analysis.py(853B)
--------english_lighdump.py(2KB)
--------senti_relate_analy.py(1KB)
----run.py(3KB)
----notebook()
--------Sentiment_Pageviews Analysis .ipynb(74KB)
----config()
--------first_step_params.json(115B)
--------sentiment_anakysis_params.json(93B)
--------page_view_params.json(81B)
--------english_lightdump_params.json(95B)
--------get_data_params.json(164B)
--------senti_relate_analy_params.json(259B)
--------deal_withcomment_parans.json(131B)
----test()
--------output()
--------test_data.csv(15KB)
----README.md(2KB)
----.gitignore(2KB)