无监督学习的文本预处理:为什么重要、何时会误导以及如何处理-研究论文

时间:2024-06-29 05:34:45
【文件属性】:

文件名称:无监督学习的文本预处理:为什么重要、何时会误导以及如何处理-研究论文

文件大小:639KB

文件格式:PDF

更新时间:2024-06-29 05:34:45

text-as-data preprocessing

尽管无监督技术在政治科学文本数据研究中很流行,但预处理决策在该领域的重要性和影响很少受到系统的关注。 然而,正如我们所展示的,此类决策对真实数据的真实模型的结果具有深远的影响。 我们认为,实质性理论通常过于模糊,无法用于特征选择,并且监督文献不一定是有用的建议来源。 为了帮助在无监督环境中工作的研究人员,我们引入了一种统计程序和软件,用于检查在替代预处理制度下发现的敏感性。 这种方法通过提供分析特定数据集时预处理选择的可变性变化的特征,补充了研究人员对问题的实质性理解。 在让学者意识到他们的结果可能对其预处理决策敏感的程度时,它有助于复制工作。


网友评论