uniparser-grammar-meadow-mari:Meadow Mari的形态分析

时间:2024-03-09 16:37:55
【文件属性】:

文件名称:uniparser-grammar-meadow-mari:Meadow Mari的形态分析

文件大小:10.25MB

文件格式:ZIP

更新时间:2024-03-09 16:37:55

nlp dictionary morphology wordlist analyzer

uniparser-语法-草甸-玛丽 这是对文学梅多·玛丽形态的形式化描述,其中还包括许多方言元素。 该描述以UniParser格式执行,并且包含对变形的描述(paradigms.txt),语法词典(mhr_lexemes_XXX.txt文件)和应避免的简短分析列表(bad_analyses.txt)。 该词典包含对单个词素的描述,每个词素都附带有关其词干,词性标记和一些其他语法/借阅信息,其变形类型(范例)以及俄语翻译的信息。 此说明可以通过以下方式用于Meadow Mari文本的形态分析: 最简单的解决方案是使用预先分析的词表来分析文本。 wordlists目录包含基于Meadow Mari语料库的标记的频率列表。 第一组列表( _main )来自标准语料库,该语料库在大众媒体,*的文章等中包含263万个单词。 第二个( _social_media )来自Meadow Mea


【文件预览】:
uniparser-grammar-meadow-mari-master
----paradigms.txt(141KB)
----finalizer()
--------paradigms.txt(151KB)
--------gramm_finalizer.py(3KB)
--------lexemes.txt(6.1MB)
----mhr_lexemes_N.txt(2.55MB)
----bad_analyses.txt(564B)
----mhr_lexemes_V.txt(677KB)
----mhr_lexemes_PN.txt(1.68MB)
----analyzer()
--------paradigms.txt(151KB)
--------bad_analyses.txt(564B)
--------lexemes.txt(6.1MB)
--------UniParser()
----wordlists()
--------mhr_wordlist_main.csv(3.64MB)
--------mhr_parsed_social_media.txt(18.63MB)
--------mhr_parsed_main.txt(21.94MB)
--------mhr_unparsed_social_media.txt(1.55MB)
--------mhr_wordlist_social_media.csv(3.31MB)
--------mhr_unparsed_main.txt(1.41MB)
----mhr_lexemes_A.txt(780KB)
----mhr_lexemes_PRO.txt(32KB)
----mhr_lexemes_NUM.txt(8KB)
----mhr_lexemes_unchangeable.txt(361KB)
----LICENSE.md(1KB)
----README.md(3KB)

网友评论