文件名称:exchange:Bigram交换算法
文件大小:33KB
文件格式:ZIP
更新时间:2024-04-14 21:46:29
C++
交换词聚类算法的高效C ++实现
通过在类之间交换单词来优化bigram的困惑。 评估可以在多个线程中并行进行。 使用词类和类词统计信息来提高效率。
每行假定一个句子。 如果语料库中不存在句子,则将开始和结束标记( 和 )添加到每行。 困惑度值包括句子结尾符号。
更多细节: Martin,Liermann,Ney:bigram和trigram词聚类算法,语音通信1998 Botros,Irie,Sundermeyer,Ney:关于单词类的有效训练及其在递归神经网络语言模型中的应用,Interspeech 2015
编译可执行文件
要求
提供的Makefile可与具有C ++ 11支持的GCC编译器一起使用,例如GCC 4.6或更高版本。 也应该在MinGW上工作。
Zlib库和头文件。 在linux系统上,这些通常包含在软件包zlib1g和zlib1g-dev 。
s
【文件预览】:
exchange-master
----dep(0B)
----test()
--------exchangetest.cc(6KB)
--------corpus1.txt(110B)
--------runtests.cc(88B)
----LICENSE(1KB)
----src()
--------classppl.cc(4KB)
--------ExchangeAlgorithm.cc(19KB)
--------exchange.cc(3KB)
--------ngramppl.cc(3KB)
--------classintppl.cc(7KB)
--------defs.hh(1KB)
--------ExchangeAlgorithm.hh(2KB)
----.gitignore(114B)
----Makefile(1KB)
----README.md(2KB)
----util()
--------str.hh(18KB)
--------io.hh(3KB)
--------Ngram.cc(11KB)
--------Ngram.hh(3KB)
--------io.cc(4KB)
--------conf.hh(6KB)
--------conf.cc(10KB)
----Makefile.local.example(187B)
----scripts()
--------class_corpus.py(2KB)