文件名称:使用 N-Gram 进行文本挖掘-研究论文
文件大小:207KB
文件格式:PDF
更新时间:2024-06-29 07:01:51
Stata n-gram
文本挖掘是将*文本转换为数值变量,然后使用统计技术对其进行分析的艺术。 我们介绍了 Stata 命令 ngram,它实现了最常见的文本挖掘方法,“词袋”。n-gram 是文本中连续的单词序列。广义上讲,ngram 创建数百或数千个变量,每个变量记录如何通常对应的 n-gram 出现在给定的文本中。这比听起来更有用。Ngram 用来自两个开放式问题的文本答案的分类来说明。