IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。
官网: https://code.google.com/archive/p/ik-analyzer/
本用例借助 IKAnalyzer 进行分词,通过遍历分词集合进行敏感词过滤。
使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet);
1、pom.xml 引入maven依赖
<!-- https://mvnrepository.com/artifact/com.janeluo/ikanalyzer -->
<dependency>
<groupId>com.janeluo</groupId>
<artifactId>ikanalyzer</artifactId>
<version>2012_u6</version>
</dependency>
2、工具类
package cn.swfilter.util;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import java.io.IOException;
import java.io.StringReader;
import java.util.*;
/**
* 敏感词处理工具 - IKAnalyzer中文分词工具 - 借助分词进行敏感词过滤
*
* @author sam
* @since 2017/9/4
*/
public class SensitiveWordUtil2 {
/**
* 敏感词集合
*/
public static HashMap sensitiveWordMap;
/**
* 初始化敏感词库
*
* @param sensitiveWordSet 敏感词库
*/
public static synchronized void init(Set<String> sensitiveWordSet) {
//初始化敏感词容器,减少扩容操作
sensitiveWordMap = new HashMap(sensitiveWordSet.size());
for (String sensitiveWord : sensitiveWordSet) {
sensitiveWordMap.put(sensitiveWord, sensitiveWord);
}
}
/**
* 判断文字是否包含敏感字符
*
* @param txt 文字
* @return 若包含返回true,否则返回false
*/
public static boolean contains(String txt) throws Exception {
boolean flag = false;
List<String> wordList = segment(txt);
for (String word : wordList) {
if (sensitiveWordMap.get(word) != null) {
return true;
}
}
return flag;
}
/**
* 获取文字中的敏感词
*
* @param txt 文字
* @return
*/
public static Set<String> getSensitiveWord(String txt) throws IOException {
Set<String> sensitiveWordList = new HashSet<>();
List<String> wordList = segment(txt);
for (String word : wordList) {
if (sensitiveWordMap.get(word) != null) {
sensitiveWordList.add(word);
}
}
return sensitiveWordList;
}
/**
* 替换敏感字字符
*
* @param txt 文本
* @param replaceChar 替换的字符,匹配的敏感词以字符逐个替换,如 语句:我爱中国人 敏感词:中国人,替换字符:*, 替换结果:我爱***
* @return
*/
public static String replaceSensitiveWord(String txt, char replaceChar) throws IOException {
String resultTxt = txt;
//获取所有的敏感词
Set<String> sensitiveWordList = getSensitiveWord(txt);
String replaceString;
for (String sensitiveWord : sensitiveWordList) {
replaceString = getReplaceChars(replaceChar, sensitiveWord.length());
resultTxt = resultTxt.replaceAll(sensitiveWord, replaceString);
}
return resultTxt;
}
/**
* 替换敏感字字符
*
* @param txt 文本
* @param replaceStr 替换的字符串,匹配的敏感词以字符逐个替换,如 语句:我爱中国人 敏感词:中国人,替换字符串:[屏蔽],替换结果:我爱[屏蔽]
* @return
*/
public static String replaceSensitiveWord(String txt, String replaceStr) throws IOException {
String resultTxt = txt;
//获取所有的敏感词
Set<String> sensitiveWordList = getSensitiveWord(txt);
for (String sensitiveWord : sensitiveWordList) {
resultTxt = resultTxt.replaceAll(sensitiveWord, replaceStr);
}
return resultTxt;
}
/**
* 获取替换字符串
*
* @param replaceChar
* @param length
* @return
*/
private static String getReplaceChars(char replaceChar, int length) {
String resultReplace = String.valueOf(replaceChar);
for (int i = 1; i < length; i++) {
resultReplace += replaceChar;
}
return resultReplace;
}
/**
* 对语句进行分词
*
* @param text 语句
* @return 分词后的集合
* @throws IOException
*/
private static List segment(String text) throws IOException {
List<String> list = new ArrayList<>();
StringReader re = new StringReader(text);
IKSegmenter ik = new IKSegmenter(re, true);
Lexeme lex;
while ((lex = ik.next()) != null) {
list.add(lex.getLexemeText());
}
return list;
}
public static void main(String[] args) throws IOException {
Set<String> sensitiveWordSet = new HashSet<>();
sensitiveWordSet.add("太多");
sensitiveWordSet.add("爱恋");
sensitiveWordSet.add("静静");
sensitiveWordSet.add("哈哈");
sensitiveWordSet.add("啦啦");
sensitiveWordSet.add("感动");
sensitiveWordSet.add("发呆");
//初始化敏感词库
SensitiveWordUtil2.init(sensitiveWordSet);
/**
* 需要进行处理的目标字符串
*/
System.out.println("敏感词的数量:" + SensitiveWordUtil2.sensitiveWordMap.size());
String string = "太多的伤感情怀也许只局限于饲养基地 荧幕中的情节。"
+ "然后 我们的扮演的角色就是跟随着主人公的喜红客联盟 怒哀乐而过于牵强的把自己的情感也附加于银幕情节中,然后感动就流泪,"
+ "难过就躺在某一个人的怀里尽情的阐述心扉或者手机卡复制器一个贱人一杯红酒一部电影在夜 深人静的晚上,关上电话静静的发呆着。";
System.out.println("待检测语句字数:" + string.length());
/**
* 是否含有关键字
*/
try {
boolean result = SensitiveWordUtil2.contains(string);
System.out.println(result);
} catch (Exception e) {
e.printStackTrace();
}
/**
* 获取语句中的敏感词
*/
Set<String> set = SensitiveWordUtil2.getSensitiveWord(string);
System.out.println("语句中包含敏感词的个数为:" + set.size() + "。包含:" + set);
/**
* 替换语句中的敏感词
*/
String filterStr = SensitiveWordUtil2.replaceSensitiveWord(string, '*');
System.out.println(filterStr);
String filterStr2 = SensitiveWordUtil2.replaceSensitiveWord(string, "[*敏感词*]");
System.out.println(filterStr2);
}
}
以上,使用 IKAnalyzer 可以很轻松的实现敏感词过滤功能。
缺点:使用 IKAnalyzer 进行分词,有时候分词结果并不是很理想。如:发呆着,分词结果是 ["发","呆着"],而我们的敏感词是发呆,这种情况就会造成敏感词过滤不完整。
因此,推荐使用 Java实现敏感词过滤 - DFA算法
经博主测试,其效率低于使用DFA算法实现的敏感词过滤。参考:Java实现敏感词过滤 - DFA算法
附敏感词库:链接: https://pan.baidu.com/s/1bBrbtk 密码: e4w6
Java实现敏感词过滤 - IKAnalyzer中文分词工具的更多相关文章
-
Java实现敏感词过滤
敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...
-
Java实现敏感词过滤(转)
敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...
-
Java实现敏感词过滤 - DFA算法
Java实现DFA算法进行敏感词过滤 封装工具类如下: 使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet); package cn.swf ...
-
转:Java实现敏感词过滤
敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢.我把它程序拿过来 ...
-
java实现敏感词过滤(DFA算法)
小Alan在最近的开发中遇到了敏感词过滤,便去网上查阅了很多敏感词过滤的资料,在这里也和大家分享一下自己的理解. 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxo ...
-
Java实现敏感词过滤代码
原文:http://www.open-open.com/code/view/1445762764148 import java.io.BufferedReader; import java.io.Fi ...
-
java类敏感词过滤类
package com.fpx.pcs.prealert.process.service.impl; import java.util.HashMap;import java.util.HashSet ...
-
敏感词过滤的算法原理之DFA算法
参考文档 http://blog.csdn.net/chenssy/article/details/26961957 敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有 ...
-
java敏感词过滤
敏感词过滤在网站开发必不可少.一般用DFA,这种比较好的算法实现的. 参考链接:http://cmsblogs.com/?p=1031 一个比较好的代码实现: import java.io.IOExc ...
随机推荐
-
jQuery导入Eclipse后报错解决方法
使用Eclipse 3.7及以上版本时,工程中加入jquery.min.js文件,发现该文件出现错误提示(红×),但使用Eclipse 3.7以前的版本就不会出现这种提示.是因为Eclips ...
-
T-SQL Recipes之 Table Variables and Temporary Tables
Problem 许多时候, 我们想要Table Variables在动态SQL中执行,但现实是很骨感的.比如这个示例: DECLARE @sql_command NVARCHAR(MAX); DECL ...
-
获取QQ企业邮箱通讯录PY脚本
': root_department = department regexp = r'{uin:"(\S*?)",pid:"(\S*?)& ...
-
不在界面上用控件 动态创建idhttp,IdAntiFreeze来用
不在界面上用控件 动态创建idhttp,IdAntiFreeze来用 var IdHTTP: Tidhttp; IdAntiFreeze: TidAntiFreeze; begin IdAntiFre ...
-
製程能力介紹(SPC introduction) ─ 製程能力的三種表示法
製程能力的三種表示法 Ck: 準度指標 (accuracy) Ck=(M-X)/(T/2) Cp: 精度指標 (precision) Cp=T/(6σp) 規格為單邊時:Cp=(Tu-X)/3 ...
-
Docker集群实验环境布署--swarm【2 搭建本地镜像仓库】
在10.40.100.148上 # docker run -d -p 5000:5000 --restart=always --name docker-registry.venic.com - ...
-
Python教程(1.2)——Python交互模式
上一节已经说过,安装完Python,在命令行输入"python"之后,如果成功,会得到类似于下面的窗口: 可以看到,结尾有3个>符号(>>>).>&g ...
-
CSS照片墙
<!doctype html><html><head><meta charset="utf-8"><title>CSS照 ...
-
Beans 自动装配
http://wiki.jikexueyuan.com/project/spring/beans-auto-wiring/spring-autowiring-byname.html
-
Javascript实现MD5加密
/* * A JavaScript implementation of the RSA Data Security, Inc. MD5 Message * Digest Algorithm, as d ...