文件名称:coursework
文件大小:86KB
文件格式:ZIP
更新时间:2024-03-29 02:21:55
JupyterNotebook
该存储库包含一些文件,这些文件包含作为我的主人的工作的一部分进行的实验(稍后将添加说明)。 要重现结果,请执行以下操作: 将数据文件夹和数据集的路径写到config.py中,这些路径将被记录并在工作中使用。 运行parse.ipynb文件。 配置日期中的文件将被解析,最终的数据集将被构建。 运行数据集statistics.ipynb文件(可选):它包含有关数据的一些统计信息。 运行clean.py文件:将形成清除了嘈杂数据的文本。 运行以下文件之一: Word2Vec.ipynb , fastText.ipynb , BERT.ipynb以获取所需的文本向量表示形式。 要计算指标,请运行agglomerative clustering.ipynb和kNN.ipynb 。 在顶部的单元格中,有必要指出使用了哪些令牌。 为了清楚起见,该项目的结构如图所示:
【文件预览】:
coursework-main
----kNN.ipynb(11KB)
----parse.ipynb(9KB)
----dataset statistics.ipynb(28KB)
----images()
--------structure.jpg(54KB)
----BERT.ipynb(21KB)
----agglomerative clustering.ipynb(21KB)
----Word2Vec.ipynb(5KB)
----clean.ipynb(12KB)
----config.py(73B)
----README.md(988B)
----fastText.ipynb(3KB)