文件名称:spam_filtering:NLP 短文本 评论 垃圾 过滤
文件大小:40.06MB
文件格式:ZIP
更新时间:2024-05-31 23:37:16
Python
垃圾评论过滤系统: 垃圾的定义: (1) 广告 (2) 脏话,含敏感词 (3) 与主题无关的评论 分类问题:短文本分类问题 因为其存在两个问题,1、短文本提供的词语少,提供的有效信息有限。2、根据分词结果构建的词频或者特征矩阵通常十分稀疏,大多数算法在处理稀疏矩阵问题时候,效果都不好。常用的处理短文本的方法基本可分为两类:一类是基于某种规则改进分类过程,优化改进模型;另一类是基于外部语义信息扩充短文本信息量,从而提高分类效果。 准备数据集 (1) 去重 (2) 脏数据 (3) 数字,间隔符号删除,只保留中文跟英文 (4) 句子分词后用空格隔开 (5) 分词:jieba (6) 数据标准化 (7) 数量:去重后 负样本:50万条左右 敏感词过滤 (1) 筛选敏感词 (2) 创建字典 特征提取过程 (1) 计算词频 count_vect = CountVectorizer(stop_words