【文件属性】:
文件名称:spam_filtering:NLP 短文本 评论 垃圾 过滤
文件大小:40.06MB
文件格式:ZIP
更新时间:2021-05-12 05:50:36
Python
垃圾评论过滤系统:
垃圾的定义:
(1) 广告
(2) 脏话,含敏感词
(3) 与主题无关的评论
分类问题:短文本分类问题
因为其存在两个问题,1、短文本提供的词语少,提供的有效信息有限。2、根据分词结果构建的词频或者特征矩阵通常十分稀疏,大多数算法在处理稀疏矩阵问题时候,效果都不好。常用的处理短文本的方法基本可分为两类:一类是基于某种规则改进分类过程,优化改进模型;另一类是基于外部语义信息扩充短文本信息量,从而提高分类效果。
准备数据集
(1) 去重
(2) 脏数据
(3) 数字,间隔符号删除,只保留中文跟英文
(4) 句子分词后用空格隔开
(5) 分词:jieba
(6) 数据标准化
(7) 数量:去重后 负样本:50万条左右
敏感词过滤
(1) 筛选敏感词
(2)
创建字典
特征提取过程
(1) 计算词频
count_vect = CountVectorizer(stop_words