文件名称:文本的预处理程序,包括如何断句等(非常准确)
文件大小:312KB
文件格式:RAR
更新时间:2012-03-23 10:38:26
文本 预处理 断句
1. 删除文件中的中文、西文空格 2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配 3. 对句子按长度从大到小分行排序。 4. 在每行句子前加上序号 5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果
【文件预览】:
文本预处理
----TextPreProcessing.zip(58KB)
----TextPreProcessing.exe.zip(178KB)
----txttest.zip(79KB)
----template.css(286B)