文件名称:A-study-of-linguistic-drift-on-Le-Temps-Newspaper-Corpus:大数据项目 2015 - Le Temps 报纸语料库语言漂移研究
文件大小:26.65MB
文件格式:ZIP
更新时间:2024-06-24 11:34:17
Java
A-study-of-linguistic-drift-on-Le-Temps-Newspaper-Corpus EPFL - 大数据项目 2015 - Le Temps 报纸语料库语言漂移的研究 项目介绍 : 我们可以访问 Le Temps 报纸的档案,档案涵盖了大约 200 年的报纸(从 1816 年到 1998 年)。 通过使用这些档案,该项目的目标是进行一些研究,以量化或以某种方式表示多年来的语言漂移。 的确,语言在进化和变化,一些词出现而另一些消失,我们想科学地解释这个事实。 项目目标: 该项目的第一个主要目标是找到一种方法来使用我们拥有的数据,并找到一个好的距离度量,使我们能够量化和表示年份及其演变之间的漂移。 该项目的第二个目标是将机器学习技术应用于语料库的某些部分(训练集),然后根据给定的文本,找到它大致属于哪一年(当然要考虑一定的精度阈值)。 团队成员 :