文件名称:punkt-segmenter:NLTK Punkt句子分割算法的Ruby端口
文件大小:26KB
文件格式:ZIP
更新时间:2024-06-03 00:23:10
ruby nltk ruby-port nlp-library sentence-tokenizer
朋克句子标记器 这段代码是NLTK项目( )实现的Punkt句子标记器算法的ruby 1.9.x端口。 Punkt是一种独立于语言的,无监督的句子边界检测方法。 它基于这样的假设:一旦确定了缩写,就可以消除句子边界确定中的大量歧义。 以下学术论文介绍了该算法的完整说明: Kiss,Tibor和Strunk,2006年1月:无监督的多语言句子边界检测。 计算语言学32:485-525。 这是原始实现的功劳: 威利( )(原始Python端口) 史蒂文伯德( )(添加) 爱德华·( )(重写) 乔尔·诺斯曼(Joel Nothman)( )(几乎重写) 我只是做了ruby端口和一些API更改。 安装 gem install punkt-segmenter 当前,该gem仅在ruby 1.9.x上运行(由于unicode_utils依赖) 如何使用 假设我们有以下文本
【文件预览】:
punkt-segmenter-master
----.gitignore(9B)
----README.md(5KB)
----test()
--------punkt-segmenter()
--------test_helper.rb(451B)
--------data()
----punkt-segmenter.gemspec(629B)
----script()
--------console(265B)
----LICENSE.txt(584B)
----lib()
--------punkt-segmenter.rb(326B)
--------punkt-segmenter()
----Rakefile(296B)