自然语言处理之文本主题判别下载

【文件属性】：

文件名称：自然语言处理之文本主题判别

文件大小：2.71MB

文件格式：ZIP

更新时间：2021-07-15 09:31:36

自然语言处理 svm 文本分类高斯贝叶斯

问题发现：本次案例为工作中遇到的实际问题，在语音识别中的语料准备部分，需要从网络中爬取相当数量的相关文本，其中发现爬取到了一些不相关的内容，如何把这些不相关的内容剔除掉成为笔者需要思考的问题。初步思考：遇到此问题笔者第一时间考虑是将文本分词后向量化，使用聚类看一下分布情况，然而发现在不同训练集中，训练样本变化时，向量随之变化，在测试集中表现一般，在实测中几乎无用。于是想到向量化的方法问题，使用sklearn CountVectorizer方法进行向量化，仅仅是将所有词频无序的向量化，看到另外博文时，发现应该先将目标主题的文本进行词频统计，将统计结果当做向量化模板，实测发现效果不错，现将此方法分享给大家

立即下载

秒客网

自然语言处理之文本主题判别

网友评论

相关文章