text-corpus-analysis

时间:2024-04-03 03:19:22
【文件属性】:

文件名称:text-corpus-analysis

文件大小:9KB

文件格式:ZIP

更新时间:2024-04-03 03:19:22

JupyterNotebook

文本语料库分析 词汇探究可产生很少的统计数据,例如常见单词的数量,数据集的唯一单词以及查找出现在五种,四种,三种,两种和两种中的单词所占的百分比,包括和不包括停用词列表。 Sentence Vector Exploration(句子向量探究)基于两种句子向量表示方法的捕获能力比较它们的能力。 其中包括Spark ML库使用基于TDIDF的矢量表示以及Google发布的预训练语句编码器。 设置环境 创建EMR集群 You are suggested to download the MNLI data set from the GLUE site GLUE Tasks. Download the MultiNLI Matched as a zip file. After extracting the zip file. You will see five tsv files at top le


【文件预览】:
text-corpus-analysis-main
----LICENSE(1KB)
----Text corpus analysis.ipynb(34KB)
----README.md(4KB)

网友评论