Midas:荷兰语中注释系统-荷兰语中的Tagger-Lemmatiser

时间:2024-06-09 04:01:05
【文件属性】:

文件名称:Midas:荷兰语中注释系统-荷兰语中的Tagger-Lemmatiser

文件大小:38KB

文件格式:ZIP

更新时间:2024-06-09 04:01:05

Python

[非常开发中] 迈达斯 介绍 该存储库包含“ Midas”(荷兰中部注释系统)的代码,这是荷兰中部的Tagger-Lemmatiser。 尽管Midas最初是为处理中世纪荷兰语而开发的,但它在很大程度上与语言无关,并且可以应用于其他(历史)语言,例如中世纪拉丁语或古法语。 Midas提供了用于标记化,词性标记和词义化的功能,并且偏向于语言,这些语言在拼写和间距方面显示出相当数量的字形变化。 Midas是用纯Python(> = py2.7或py3)编写的,并且已经在类似UNIX的系统上进行了测试。 通过keras和theano,Midas在其语言建模中大量使用了神经网络:幸运的是,通过在GPU而不是CPU上运行Midas可以加快训练tagger-lemmatizer的速度。 资料格式 所有输入文件均应使用UTF-8编码。 Midas希望带注释的培训数据具有以下三列格式: @ begin


【文件预览】:
Midas-master
----code2()
--------cmd_line.py(620B)
--------midas.py(15KB)
--------utils.py(831B)
--------config.txt(811B)
--------tokenize_stuff.py(4KB)
--------datasets.py(2KB)
--------tagger_stuff.py(15KB)
--------cmd_line_parse(2KB)
----code()
--------TagConverter.py(2KB)
--------midas.py(7KB)
--------Alignator.py(5KB)
--------config.txt(678B)
--------tag_reordering.py(8KB)
--------Levenshtein_suggester.py(4KB)
--------Gazetteer.py(800B)
--------extract_annotated_data.py(18KB)
--------evaluate.py(4KB)
--------midas_old.py(18KB)
--------Tokenizer.py(7KB)
--------Lemmatizer.py(5KB)
--------Transliterator.py(3KB)
--------MaxentTagger.py(12KB)
--------extract_unannotated_data.py(5KB)
----.gitignore(544B)
----README.md(3KB)

网友评论