文件名称:新闻文章主题建模
文件大小:6.61MB
文件格式:ZIP
更新时间:2024-03-03 21:57:48
JupyterNotebook
新闻文章的主题建模 问题陈述-使用主题建模技术,识别BBC新闻文章集中的主要主题/主题。 数据摘要-数据集包含针对每个主要细分市场的一组新闻报道,包括商业,娱乐,政治,体育和技术。 BBC新闻网站的数据集*有2225篇文章,对应于2004-2005年五个主题领域的故事。 需要创建所有新闻文章的汇总数据集,并对数据集执行主题建模,并验证这些主题是否对应于可用的不同标签。 方式- 合并所有文章以创建具有两列的数据集。 一栏包括文章新闻,另一栏包括相应的主题。 应用了各种数据预处理技术来清理数据。 与多个库一起使用了词法修饰,因此删除了停用词。 创建了一些功能,例如每篇文章的长度,总单词数和平均单词数,以更好地了解数据。 在建模之前,使用来检查每个主题的分布,以便将模型输出集群/主题与给定主题进行比较。 使用TF-IDF矢量化器将词袋模型转换为稀疏矩阵,以用于建模。 实现了几种
【文件预览】:
Topic-Modeling-on-News-Articles-main
----Soumyajit_Das_Team_3_Topic_Modeling_on_News_Articles_Capstone_Project_3.ipynb(4.67MB)
----Soumyajit_Das_Topic_Modeling_on_News_Articles.ipynb(4.33MB)
----README.md(2KB)