文件名称:土耳其形态:土耳其语的两级形态分析仪
文件大小:474KB
文件格式:ZIP
更新时间:2024-02-24 05:54:01
nlp natural-language-processing google morphology turkish
土耳其形态 土耳其语的两级形态分析仪。 这不是Google的官方产品。 组件 此实现由三层组成: 词汇表: 该层包括覆盖面很广的,可对其进行手动注释并针对词性和音素异常进行验证。 它们旨在用于构建土耳其语自然语言处理工具,例如形态分析仪。 我们提供的基本词典集包括用于注释的202,202个单词的词汇项目。 标签集和注释方案在进行了描述。 形态策略: 该层包括,这些定义以类似于AT&T FSM格式的自定义格式实现(唯一的不同是,我们可以将字符串用作状态名称和每个过渡的输入/输出标签,而不是整数)。 对于每个给定的词性,我们使用这些FST定义后缀模式和语素库,以及它们对应的输出形态特征类别-值对。 形态中描述了整体形态策略模型和形态特征类别值集。 语素学: 该层包括,每个都实现一个独立的语素处理过程(例如元音和声,元音下降,辅音和辅音下降等)。 这些Thrax语法中定义的导出FST的组成产生了土耳其语的音素。 形态分析的第一级是由形态语音模型实现的,该模型采用土耳其语单词并将其转换为中间表示形式。 第一级的输出是带有词素异常的词干注释的所有可能假设,其后是与以表面形式实现