文件名称:NLP-Sentence-Compression:使用深层链接双语短语对齐的释义句压缩
文件大小:95.17MB
文件格式:ZIP
更新时间:2024-06-26 12:34:16
Fortran
释义压缩
这是一个 NLP 课程研究项目,研究使用深层链接双语短语对齐和跨域平行语料库来改善释义句子压缩结果。
准备数据
获得平行句
使用的平行语料库是:
圣经语料库需要从初始的 XML 格式进行预处理,可以使用以下命令完成:
python bible_parser.py
【文件预览】:
NLP-Sentence-Compression-master
----condor()
--------europarl-fr.job(434B)
--------bible-sp.job(422B)
--------bible-de.job(422B)
--------news-commentary-de.job(462B)
--------europarl-de.job(434B)
----tokenizer.py(712B)
----bible_parser.py(650B)
----data()
--------lc()
--------phrases.txt(657B)
----alignment()
--------bible-sp-en.conf(1KB)
--------europarl.de-en.conf(1KB)
--------news-commentary.de-en.conf(1KB)
--------europarl.fr-en.conf(1KB)
--------bible-de-sp.conf(1KB)
----phrase_aligner.py(4KB)
----ParaphraseRanker.java(1KB)
----berkeleyaligner()
--------example()
--------documentation()
--------example_syntactic.conf(1KB)
--------output()
--------example.conf(1KB)
--------README(2KB)
--------berkeleyaligner.jar(1.15MB)
--------align(204B)
----paraphraser.py(2KB)
----sim()
----.gitignore(5B)
----nlp-final.pdf(150KB)
----README.md(3KB)
----reports()
--------hw4.abw(20KB)
--------hw4.docx(8KB)
--------hw4.pdf(67KB)
----lowercase.perl(136B)