文件名称:text-corpus-analysis
文件大小:9KB
文件格式:ZIP
更新时间:2024-04-03 03:19:22
JupyterNotebook
文本语料库分析 词汇探究可产生很少的统计数据,例如常见单词的数量,数据集的唯一单词以及查找出现在五种,四种,三种,两种和两种中的单词所占的百分比,包括和不包括停用词列表。 Sentence Vector Exploration(句子向量探究)基于两种句子向量表示方法的捕获能力比较它们的能力。 其中包括Spark ML库使用基于TDIDF的矢量表示以及Google发布的预训练语句编码器。 设置环境 创建EMR集群 You are suggested to download the MNLI data set from the GLUE site GLUE Tasks. Download the MultiNLI Matched as a zip file. After extracting the zip file. You will see five tsv files at top le
【文件预览】:
text-corpus-analysis-main
----LICENSE(1KB)
----Text corpus analysis.ipynb(34KB)
----README.md(4KB)