sDTM:用于文本分析的监督贝叶斯深度主题模型-研究论文

时间:2024-06-09 13:04:01
【文件属性】:

文件名称:sDTM:用于文本分析的监督贝叶斯深度主题模型-研究论文

文件大小:841KB

文件格式:PDF

更新时间:2024-06-09 13:04:01

Topic Modeling Variational Inference Supervised

潜在的狄利克雷分配(LDA)等主题建模方法是用于分析大量文本数据的强大工具。 它们已广泛用于信息系统和管理研究中,以识别潜在的主题以进行数据探索,并作为特征工程机制来导出新变量以进行其他分析。 但是,现有的主题建模方法大多是无监督的,仅利用文本数据,而忽略了通常与文本相关的其他有用信息,例如客户评论中的星级或在线讨论论坛中的评论类别。 结果,提取的主题和基于学习的主题向量得出的新变量可能不准确,这可能导致对随后的计量经济学分析的估计有偏差或不正确,并且在预测任务中的表现不佳。 作为回应,我们提出了一种称为sDTM的新型监督主题建模方法,该方法以贝叶斯深度学习方式设计,同时并入了其他有用数据。 与传统主题建模方法相比,sDTM具有三个主要优势。 首先,它学习定量和定性测量的高质量主题,这可以帮助减轻对计量经济分析中潜在测量误差的担忧。 其次,这种有监督的学习模型比最先进的基准具有明显优越的预测性能。 最后,sDTM能够突出显示对结果有更强影响的单词,从而有助于透明的模型调查。 在三个数据集上的实验结果表明,sDTM不仅改善了监督学习任务,包括分类和回归,而且还表现出更好的模型拟合性(例如,较低的困惑度),有助于文档理解。 sDTM为IS和管理文献提供了方法论上的贡献,并且与使用大数据分析的研究具有直接相关性。


网友评论