Java实现编辑距离算法
编辑距离,又称Levenshtein距离(莱文斯坦距离也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们的相似度越小。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
oracle数据库中有一个编辑距离函数: UTL_MATCH.EDIT_DISTANCE(str1,str2)
在plsql中执行: select UTL_MATCH.EDIT_DISTANCE('Java你好','你好') from dual;
执行结果为: 4
此函数的含义为:
计算两个字符串的差异, str1 str2, str1要做多少次插入 删除、 替换、 操作才能与str2一致(每次一个字符),这里取出来的是最小变更次数 即 最小距离。
eg: str1 = "Java你好"; str2="你好";
由 str1 变为 str2, 至少需要做四次删除操作,分别删除字符 J ,a, v, a然后才能与str2保持一致。故这里的编辑距离为 4。
(这里也可以由 str2变为srt1,str2至少需要做4次插入操作,分别在前面插入 J ,a ,v,a 才能与str1保持一致。)
Java代码实现编辑距离,且计算出两个字符串的相似度(这里是因为我要做hive的自定义UDF函数,所以继承了 UDF,正常使用可以不用继承UDF类。)
字符串相似度: 相似度 = (长串的长度 - 编辑距离)/ 长串的长度 ; // 长串的长度: Math.max(str1.length(),str2.length());
OracleEditDistance .java
package org.clio.hiveudf.hiveudf; import org.apache.hadoop.hive.ql.exec.UDF; /**
* <p>
* Description: 编辑距离算法
* 距离值:变更次数--- 先计算两个字符串的差异, str1 str2, str1要做多少次(每次一个char字符)增加 删除 替换 操作 才能与str2一致
* 相似度:用最长的字符串的len 减去 变更次数 ,然后除以最长的字符串长度. similarity = (maxLen - changeTimes)/maxLen
* ORACLE函数: UTL_MATCH.EDIT_DISTANCE
* select UTL_MATCH.EDIT_DISTANCE('Java你好','你好') from dual;
* </p>
* @author duanfeixia
* @date 2019年7月30日
*/
public class OracleEditDistance extends UDF{ /**
* 编辑距离算法
* @param sourceStr 原字符串
* @param targetStr 目标字符串
* @return 返回最小距离: 原字符串需要变更多少次才能与目标字符串一致(变更动作:增加/删除/替换,每次都是以字节为单位)
*/
public static int minDistance(String sourceStr, String targetStr){
int sourceLen = sourceStr.length();
int targetLen = targetStr.length(); if(sourceLen == 0){
return targetLen;
}
if(targetLen == 0){
return sourceLen;
} //定义矩阵(二维数组)
int[][] arr = new int[sourceLen+1][targetLen+1]; for(int i=0; i < sourceLen+1; i++){
arr[i][0] = i;
}
for(int j=0; j < targetLen+1; j++){
arr[0][j] = j;
} Character sourceChar = null;
Character targetChar = null; for(int i=1; i < sourceLen+1 ; i++){
sourceChar = sourceStr.charAt(i-1); for(int j=1; j < targetLen+1 ; j++){
targetChar = targetStr.charAt(j-1); if(sourceChar.equals(targetChar)){
/*
* 如果source[i] 等于target[j],则:d[i, j] = d[i-1, j-1] + 0 (递推式 1)
*/
arr[i][j] = arr[i-1][j-1];
}else{
/* 如果source[i] 不等于target[j],则根据插入、删除和替换三个策略,分别计算出使用三种策略得到的编辑距离,然后取最小的一个:
d[i, j] = min(d[i, j - 1] + 1, d[i - 1, j] + 1, d[i - 1, j - 1] + 1 ) (递推式 2)
>> d[i, j - 1] + 1 表示对source[i]执行插入操作后计算最小编辑距离
>> d[i - 1, j] + 1 表示对source[i]执行删除操作后计算最小编辑距离
>> d[i - 1, j - 1] + 1表示对source[i]替换成target[i]操作后计算最小编辑距离
*/
arr[i][j] = (Math.min(Math.min(arr[i-1][j], arr[i][j-1]), arr[i-1][j-1])) + 1;
}
}
} System.out.println("----------矩阵打印---------------");
//矩阵打印
for(int i=0;i<sourceLen+1;i++){ for(int j=0;j<targetLen+1;j++){
System.out.print(arr[i][j]+"\t");
}
System.out.println();
}
System.out.println("----------矩阵打印---------------"); return arr[sourceLen][targetLen];
} /**
* 计算字符串相似度
* similarity = (maxlen - distance) / maxlen
* ps: 数据定义为double类型,如果为int类型 相除后结果为0(只保留整数位)
* @param str1
* @param str2
* @return
*/
public static double getsimilarity(String str1,String str2){
double distance = minDistance(str1,str2);
double maxlen = Math.max(str1.length(),str2.length());
double res = (maxlen - distance)/maxlen; //System.out.println("distance="+distance);
//System.out.println("maxlen:"+maxlen);
//System.out.println("(maxlen - distance):"+(maxlen - distance));
return res;
} public static String evaluate(String str1,String str2) {
double result = getsimilarity(str1,str2);
return String.valueOf(result);
} public static void main(String[] args) {
String str1 = "2/F20NGNT";
String str2 = "1/F205ONGNT";
int result = minDistance(str1, str2);
String res = evaluate(str1,str2);
System.out.println("最小编辑距离minDistance:"+result);
System.out.println(str1+"与"+str2+"相似度为:"+res); } }
执行结果如下图:
编辑距离主要是为了计算两个字符串的相似度,在查阅资料的时候看到了一篇博客关中文的相似度匹配算法觉得挺有意思的,这里引入了一个 音形码 的概念来计算汉字的相似度,感觉兴趣的可以看看原博主的博客。
中文相似度匹配算法: https://blog.csdn.net/chndata/article/details/41114771
音形码
音形码示例:
这里顺便记录一下mysql函数自动填充时间工具表。
因为hive对数据初始化时每次都要手动更新表 rs_tool_date,往里面插入日期,让里面的数据为 20190101到当前日期前一天为止。(所以就写了这个函数,需要的时候手动运行一下这个函数即可~)
BEGIN declare i int default 0;
declare len int default 1; set i=1; -- 从i=1开始,保证存储在数据库中的数据为20190101到当前日期的前一天
set len = DATEDIFF(now(),date'2019-01-01');
-- set len = DATEDIFF(date('2019-07-15'),date'2019-01-01'); DROP TABLE IF EXISTS `rs_tool_date`; -- rs_tool_date
CREATE TABLE `rs_tool_date` (
`ID` bigint(20) NOT NULL AUTO_INCREMENT,
`tool_date` date DEFAULT NULL,
PRIMARY KEY (`ID`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 ROW_FORMAT=COMPACT; while i<= len DO insert into rs_tool_date (tool_date) values(DATE_ADD(now(),INTERVAL -i day)); set i=i+1;
end while;
END
Java实现编辑距离算法的更多相关文章
-
自然语言处理(5)之Levenshtein最小编辑距离算法
自然语言处理(5)之Levenshtein最小编辑距离算法 题记:之前在公司使用Levenshtein最小编辑距离算法来实现相似车牌的计算的特性开发,正好本节来总结下Levenshtein最小编辑距离 ...
-
Levenshtein Distance算法(编辑距离算法)
编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...
-
Java常用排序算法+程序员必须掌握的8大排序算法+二分法查找法
Java 常用排序算法/程序员必须掌握的 8大排序算法 本文由网络资料整理转载而来,如有问题,欢迎指正! 分类: 1)插入排序(直接插入排序.希尔排序) 2)交换排序(冒泡排序.快速排序) 3)选择排 ...
-
字符串相似度算法(编辑距离算法 Levenshtein Distance)(转)
在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录. 据百度百科介绍: 编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个 ...
-
Java字符串排列算法
Java字符串排列算法 题目:现有ABCDE 5个球 构成的排列组合 可重复抽取 最多取到16个 共有多少种组合方式? 比如:取1个球可以构成的组合有 A B C D E 共5种,取2个球可以构成的组 ...
-
Java 常用排序算法/程序员必须掌握的 8大排序算法
Java 常用排序算法/程序员必须掌握的 8大排序算法 分类: 1)插入排序(直接插入排序.希尔排序) 2)交换排序(冒泡排序.快速排序) 3)选择排序(直接选择排序.堆排序) 4)归并排序 5)分配 ...
-
字符串相似度算法(编辑距离算法 Levenshtein Distance)
在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录.据百度百科介绍:编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串 ...
-
Java实现KMP算法
/** * Java实现KMP算法 * * 思想:每当一趟匹配过程中出现字符比较不等,不需要回溯i指针, * 而是利用已经得到的“部分匹配”的结果将模式向右“滑动”尽可能远 * 的一段 ...
-
java结构与算法之选择排序
一 .java结构与算法之选择排序(冒择路兮快归堆) 什么事选择排序:从一组无序数据中选择出中小的的值,将该值与无序区的最左边的的值进行交换. 简单的解释:假设有这样一组数据 12,4,23,5,找到 ...
随机推荐
-
Mysql控制语句
14.6.5.1 CASE Syntax 14.6.5.2 IF Syntax 14.6.5.3 ITERATE Syntax 14.6.5.4 LEAVE Syntax 14.6.5.5 LOOP ...
-
Win10/UWP新特性系列—Launcher实现应用间的通信
UWP中,微软为Windows.System.Launcher启动器新增了很多的功能,以前只能启动App,打开指定扩展名文件,对uri协议的解析,以及当启动的应用没有安装时则会提示前往商店下载等. 如 ...
-
单元最短路径算法模板汇总(Dijkstra, BF,SPFA),附链式前向星模板
一:dijkstra算法时间复杂度,用优先级队列优化的话,O((M+N)logN)求单源最短路径,要求所有边的权值非负.若图中出现权值为负的边,Dijkstra算法就会失效,求出的最短路径就可能是错的 ...
-
E-R图向关系模式的转换
转自: http://hi.baidu.com/qicaiqinxian/blog/item/a8bb0bdf31ae081b63279887.html E-R图向关系模型转换时犯糊涂了,找到下面这篇 ...
-
ASP.Net Core-依赖注入IoC
一.Ioc IoC全称Inverse of Control,控制反转. 类库和框架的不同之处在于,类库是实现某种单一功能的API,框架是针对一个任务把这些单一功能串联起来形成一个完整的流程,这个流程在 ...
-
Nightmare(搜索)
http://acm.hdu.edu.cn/showproblem.php?pid=1072 /* 题意: 迷宫内有入口和出口 在6分钟结束后炸弹会爆炸,但是迷宫内有重置炸弹的装置,可以重置炸弹的时间 ...
-
08JS高级 ——“继承”
<!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...
-
logstash结合zabbix报警安装部署
cd /usr/share/logstash/ vim Gemfile source "https://ruby.taobao.org/" ##修改成国内镜像站 source &q ...
-
css超过一定长度显示省略号
overflow: hidden; white-space: nowrap; text-overflow: ellipsis;
-
nyoj358 取石子(五) 斐波那契博弈
我写代码找的规律:如果这个n是斐波那契数,那么它是P态,如2,3,5,8..... 找规律的代码: #include <cstdio> #include <cmath> #in ...