从定性信息中定量发现:通用文档聚类方法-研究论文

时间:2024-06-29 10:41:37
【文件属性】:

文件名称:从定性信息中定量发现:通用文档聚类方法-研究论文

文件大小:459KB

文件格式:PDF

更新时间:2024-06-29 10:41:37

unsupervised learning discovery

许多人试图通过阅读大量非结构化文本来发现有用的信息,但由于已知的人类局限性,即使是专家也不适合完成这项任务。 这种困难激发了许多自动聚类分析方法的创建,以帮助发现。 我们解决了困扰该文献的两个问题。 首先,这些方法中任何一种的最佳使用都要求它仅适用于特定的实质性领域,但每种方法的最佳领域很少讨论,而且通常事前不可知。 我们使用数学、统计和可视化工具来解决这个问题,这些工具定义了一个搜索空间,该空间是从所有先前提出的聚类分析方法(以及任何有时间包括的定性方法)的解决方案构建的,并使用户能够探索它并快速识别有用信息。 其次,部分由于无监督学习问题的性质,聚类分析方法的常规评估方式不会使它们容易被证明是次优的或在特定数据类型中不太有用。 因此,我们提出了新的实验设计来评估这些方法。 通过这样的评估设计,我们证明了我们的计算机辅助方法比使用定性或定量方法或现有自动化方法的专家编码人员更有效和更有洞察力地发现有用信息。 我们(将)提供一个易于使用的软件包来实现我们的所有建议。


网友评论