文本的预处理程序,包括如何断句等(非常准确)

时间:2012-03-23 10:38:26
【文件属性】:

文件名称:文本的预处理程序,包括如何断句等(非常准确)

文件大小:312KB

文件格式:RAR

更新时间:2012-03-23 10:38:26

文本 预处理 断句

1. 删除文件中的中文、西文空格 2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配 3. 对句子按长度从大到小分行排序。 4. 在每行句子前加上序号 5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果


【文件预览】:
文本预处理
----TextPreProcessing.zip(58KB)
----TextPreProcessing.exe.zip(178KB)
----txttest.zip(79KB)
----template.css(286B)

网友评论

  • 忘记了,先评一次,下了再评价
  • 很好,很好用,准确
  • 根据符号进行切分存在一定的问题,希望后续改进~
  • 正在研究 不错
  • 你好,下载下来的是什么文件,为什么打不开
  • 感谢楼主,我再稍微改造一下 就可以用 非常感谢
  • 正在做这方面的工具,太棒了
  • 谢谢楼主分享
  • 帮了大忙了,很有学习价值的!
  • 做的挺不错的
  • 可以借鉴下逻辑思路,目前正在做类似的功能。
  • 这个做的可以,但是字符集的考虑还不够全面。
  • 中文分类的一个小程序,对于初学中文预处理有帮助
  • 数据,源程序,可执行文件都有,很具有学习参考的价值
  • 代码可以参考,正在做摘要提取。
  • 代码可以参考,正在做摘要提取。