本文实例讲述了Java实现的双向匹配分词算法。分享给大家供大家参考,具体如下:
目前比较流行的几大分词算法有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本文采用的是基于字符串匹配法。
正向最大匹配分词:
该算法是基于分词词典实现,从字符串左侧进行分割匹配,如果词典存在则返回分割出来的词语并将该词从之前的字符串中切除,循环进行切割直到字符串大小为0。
例如:str = "我们都是西北农林科技大学信息工程学院的学生。",(假设我们定义最大切割长度max = 8,也就是八个汉字)
1.定义分词长度len = max,从左边取出len个字符word = "我们都是西北农林",并在字典中匹配word;
2.字典中没有该词,那么去掉最后一个字符赋值给word,len值减1;
3.重复步骤2,直到在字典中找到该词或是len = 1,退出循环;
4.从str中切除掉已分割的词语,重复进行1、2、3步骤,直到str被分解完。
逆向最大匹配分词:
和正向分词算法一样,只是从字符串的右边开始切分词语,直到字符串长度为0,。这里不再赘述。
双向匹配分词:
该方法是在正向分词和逆向分词的基础上,对于分割有歧义的语句进行歧义分词。提出“贪吃蛇算法”实现。要进行分词的字符串,就是食物。有2个贪吃蛇,一个从左向右吃;另一个从右向左吃。只要左右分词结果有歧义,2条蛇就咬下一口。贪吃蛇吃下去的字符串,就变成分词。 如果左右分词一直有歧义,两条蛇就一直吃。两条蛇吃到字符串中间交汇时,就肯定不会有歧义了。这时候,左边贪吃蛇肚子里的分词,中间没有歧义的分词,右边贪吃蛇肚子里的分词,3个一拼,就是最终的分词结果。
本文是对整段话进行分词,首先将这段话根据标点符号断句,然后将每句话再进行分词输出。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
|
package cn.nwsuaf.spilt;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Scanner;
/**
* 基于正逆双向最大匹配分词算法实现
* @author 刘永浪
*
*/
public class WordSpilt {
/**
* 存储分词词典
*/
private Map<String, Integer> map = new HashMap<String, Integer>();
/**
* 最大切词长度,即为五个汉字
*/
private int MAX_LENGTH = 5 ;
/**
* 构造方法中读取分词词典,并存储到map中
*
* @throws IOException
*/
public WordSpilt() throws IOException {
BufferedReader br = new BufferedReader( new FileReader( "src/dict.txt" ));
String line = null ;
while ((line = br.readLine()) != null ) {
line = line.trim();
map.put(line, 0 );
}
br.close();
}
/**
* 设置最大切词长度
*
* @param max
* 最大切词长度
*/
public void setMaxLength( int max) {
this .MAX_LENGTH = max;
}
/**
* 获取当前最大切词长度,默认为5(5个汉字)
*
* @return 当前最大切词长度
*/
public int getMaxLength() {
return this .MAX_LENGTH;
}
/**
* 最大匹配分词算法
*
* @param spiltStr
* 待切分的字符串
* @param leftToRight
* 切分方向,true为从左向右,false为从右向左
* @return 切分的字符串
*/
public List<String> spilt(String spiltStr, boolean leftToRight) {
// 如果带切分字符串为空则返回空
if (spiltStr.isEmpty())
return null ;
// 储存正向匹配分割字符串
List<String> leftWords = new ArrayList<String>();
// 储存负向匹配分割字符串
List<String> rightWords = new ArrayList<String>();
// 用于取切分的字串
String word = null ;
// 取词的长度,初始化设置为最大值
int wordLength = MAX_LENGTH;
// 分词操作中处于字串当前位置
int position = 0 ;
// 已经处理字符串的长度
int length = 0 ;
// 去掉字符串中多余的空格
spiltStr = spiltStr.trim().replaceAll( "\\s+" , "" );
// 当待切分字符串没有被切分完时循环切分
while (length < spiltStr.length()) {
// 如果还没切分的字符串长度小于最大值,让取词词长等于该词本身长度
if (spiltStr.length() - length < MAX_LENGTH)
wordLength = spiltStr.length() - length;
// 否则取默认值
else
wordLength = MAX_LENGTH;
// 如果是正向最大匹配,从spiltStr的position处开始切割
if (leftToRight) {
position = length;
word = spiltStr.substring(position, position + wordLength);
}
// 如果是逆向最大匹配,从spiltStr末尾开始切割
else {
position = spiltStr.length() - length;
word = spiltStr.substring(position - wordLength, position);
}
// 从当前位置开始切割指定长度的字符串
// word = spiltStr.substring(position, position + wordLength);
// 如果分词词典里面没有切割出来的字符串,舍去一个字符
while (!map.containsKey(word)) {
// 如果是单字,退出循环
if (word.length() == 1 ) {
// 如果是字母或是数字要将连续的字母或者数字分在一起
if (word.matches( "[a-zA-z0-9]" )) {
// 如果是正向匹配直接循环将后续连续字符加起来
if (leftToRight) {
for ( int i = spiltStr.indexOf(word, position) + 1 ; i < spiltStr
.length(); i++) {
if ((spiltStr.charAt(i) >= '0' && spiltStr
.charAt(i) <= '9' )
|| (spiltStr.charAt(i) >= 'A' && spiltStr
.charAt(i) <= 'Z' )
|| (spiltStr.charAt(i) >= 'a' && spiltStr
.charAt(i) <= 'z' )) {
word += spiltStr.charAt(i);
} else
break ;
}
} else {
// 如果是逆向匹配,从当前位置之前的连续数字、字母字符加起来并翻转
for ( int i = spiltStr.indexOf(word, position - 1 ) - 1 ; i >= 0 ; i--) {
if ((spiltStr.charAt(i) >= '0' && spiltStr
.charAt(i) <= '9' )
|| (spiltStr.charAt(i) >= 'A' && spiltStr
.charAt(i) <= 'Z' )
|| (spiltStr.charAt(i) >= 'a' && spiltStr
.charAt(i) <= 'z' )) {
word += spiltStr.charAt(i);
if (i == 0 ) {
StringBuffer sb = new StringBuffer(word);
word = sb.reverse().toString();
}
} else {
// 翻转操作
StringBuffer sb = new StringBuffer(word);
word = sb.reverse().toString();
break ;
}
}
}
}
break ;
}
// 如果是正向最大匹配,舍去最后一个字符
if (leftToRight)
word = word.substring( 0 , word.length() - 1 );
// 否则舍去第一个字符
else
word = word.substring( 1 );
}
// 将切分出来的字符串存到指定的表中
if (leftToRight)
leftWords.add(word);
else
rightWords.add(word);
// 已处理字符串增加
length += word.length();
}
// 如果是逆向最大匹配,要把表中的字符串调整为正向
if (!leftToRight) {
for ( int i = rightWords.size() - 1 ; i >= 0 ; i--) {
leftWords.add(rightWords.get(i));
}
}
// 返回切分结果
return leftWords;
}
/**
* 判断两个集合是否相等
*
* @param list1
* 集合1
* @param list2
* 集合2
* @return 如果相等则返回true,否则为false
*/
public boolean isEqual(List<String> list1, List<String> list2) {
if (list1.isEmpty() && list2.isEmpty())
return false ;
if (list1.size() != list2.size())
return false ;
for ( int i = 0 ; i < list1.size(); i++) {
if (!list1.get(i).equals(list2.get(i)))
return false ;
}
return true ;
}
/**
* 判别分词歧义函数
*
* @param inputStr
* 待切分字符串
* @return 分词结果
*/
public List<String> resultWord(String inputStr) {
// 分词结果
List<String> result = new ArrayList<String>();
// “左贪吃蛇”分词结果
List<String> resultLeft = new ArrayList<String>();
// “中贪吃蛇”(分歧部分)分词结果
List<String> resultMiddle = new ArrayList<String>();
// “右贪吃蛇”分词结果
List<String> resultRight = new ArrayList<String>();
// 正向最大匹配分词结果
List<String> left = new ArrayList<String>();
// 逆向最大匹配分词结果
List<String> right = new ArrayList<String>();
left = spilt(inputStr, true );
/*System.out.println("正向分词结果:");
for (String string : left) {
System.out.print(string + "/");
}
System.out.println("\n逆向分词结果:");*/
right = spilt(inputStr, false);
/*for (String string : right) {
System.out.print(string + "/");
}
System.out.println("\n双向分词结果:");*/
// 判断两头的分词拼接,是否已经在输入字符串的中间交汇,只要没有交汇,就不停循环
while (left.get(0).length() + right.get(right.size() - 1).length() < inputStr
.length()) {
// 如果正逆向分词结果相等,那么取正向结果跳出循环
if (isEqual(left, right)) {
resultMiddle = left;
break;
}
// 如果正反向分词结果不同,则取分词数量较少的那个,不用再循环
if (left.size() != right.size()) {
resultMiddle = left.size() < right.size() ? left : right;
break;
}
// 如果以上条件都不符合,那么实行“贪吃蛇”算法
// 让“左贪吃蛇”吃下正向分词结果的第一个词
resultLeft.add(left.get(0));
// 让“右贪吃蛇”吃下逆向分词结果的最后一个词
resultRight.add(right.get(right.size() - 1));
// 去掉被“贪吃蛇”吃掉的词语
inputStr = inputStr.substring(left.get(0).length());
inputStr = inputStr.substring(0,
inputStr.length() - right.get(right.size() - 1).length());
// 清理之前正逆向分词结果,防止造成干扰
left.clear();
right.clear();
// 对没被吃掉的字符串重新开始分词
left = spilt(inputStr, true);
right = spilt(inputStr, false);
}
// 循环结束,说明要么分词没有歧义了,要么"贪吃蛇"从两头吃到中间交汇了
// 如果是在中间交汇,交汇时的分词结果,还要进行以下判断:
// 如果中间交汇有重叠了:
// 正向第一个分词的长度 + 反向最后一个分词的长度 > 输入字符串总长度,就直接取正向的
if (left.get(0).length() + right.get(right.size() - 1).length() > inputStr
.length())
resultMiddle = left;
// 如果中间交汇,刚好吃完,没有重叠:
// 正向第一个分词 + 反向最后一个分词的长度 = 输入字符串总长度,那么正反向一拼即可
if (left.get(0).length() + right.get(right.size() - 1).length() == inputStr
.length()) {
resultMiddle.add(left.get(0));
resultMiddle.add(right.get(right.size() - 1));
}
// 将没有歧义的分词结果添加到最终结果result中
for (String string : resultLeft) {
result.add(string);
}
for (String string : resultMiddle) {
result.add(string);
}
// “右贪吃蛇”存储的分词要调整为正向
for (int i = resultRight.size() - 1; i >= 0; i--) {
result.add(resultRight.get(i));
}
return result;
}
/**
* 将一段话分割成若干句话,分别进行分词
*
* @param inputStr
* 待分割的一段话
* @return 这段话的分词结果
*/
public List<String> resultSpilt(String inputStr) {
// 用于存储最终分词结果
List<String> result = new ArrayList<String>();
// 如果遇到标点就分割成若干句话
String regex = "[,。;!?]" ;
String[] st = inputStr.split(regex);
// 将每一句话的分词结果添加到最终分词结果中
for (String stri : st) {
List<String> list = resultWord(stri);
result.addAll(list);
}
return result;
}
public static void main(String[] args) {
// example:过来看房价贵不贵?乒乓球拍卖完了
Scanner input = new Scanner(System.in);
String str = input.nextLine();
WordSpilt wordSpilt = null ;
try {
wordSpilt = new WordSpilt();
} catch (IOException e) {
e.printStackTrace();
}
List<String> list = wordSpilt.resultWord(str);
for (String string : list) {
System.out.print(string + "/" );
}
}
}
|
其中的src/dict.txt为字典文件,这里设置如下:
1
2
3
4
5
6
7
|
欢迎
服务器之家
脚本下载
脚本
教程
素材
下载
|
运行结果如下:
希望本文所述对大家java程序设计有所帮助。
原文链接:http://blog.csdn.net/lylwanan/article/details/38555929