文件名称:CulturalDataScienceExamProject2020:2020年文化数据科学考试项目| 奥尔胡斯大学| 索菲·迪特默(Sofie Ditmer)
文件大小:1.28MB
文件格式:ZIP
更新时间:2024-03-29 03:04:37
R
2020年文化数据科学考试项目| 奥尔胡斯大学 repository此资料库包含2020年秋季在奥尔胡斯大学文化数据科学课程中期末考试项目的内容。该项目的主要目标是为丹麦自然语言处理(NLP)领域做出贡献。 这是通过两种方式完成的: 在包含超过10亿个单词的丹麦Gigaword语料库(DAGW)上训练了一个神经网络模型。 开发了一个基于Web的交互式Shiny应用程序,以为用户提供不同的工具,例如探索模型预测的单词之间的语义关系,生成单词云并执行情感分析。 因此,此存储库包含两个主要元素: 1.神经网络模型 我已经在丹麦Gigaword语料库上训练了一个神经网络word2vec模型,您将找到与此过程相关的所有脚本。 首先,有一个脚本演示了单个数据文件的预处理过程,以说明对整个语料库所做的工作。 其次,您将找到一个Python脚本,该脚本演示了如何在预处理后的数据上训练模型 预处理脚本
【文件预览】:
CulturalDataScienceExamProject2020-main
----billede.png(415KB)
----LICENSE.md(1KB)
----Sk憆mbillede 2021-01-05 kl. 14.58.36.png(416KB)
----Sk憆mbillede 2020-12-03 kl. 11.39.22.png(571KB)
----Sk憆mbillede 2020-12-03 kl. 11.45.47.png(47KB)
----README.md(2KB)
----RShiny_Application.R(20KB)