Otechestvennie_zapiski:项目“祖国2.0笔记”

时间:2021-05-08 15:44:29
【文件属性】:
文件名称:Otechestvennie_zapiski:项目“祖国2.0笔记”
文件大小:221.1MB
文件格式:ZIP
更新时间:2021-05-08 15:44:29
Python 爱国笔记2.0 参加者 扎科沃罗特纳亚(E. Zakovorotnaya) 于金 科尔帕科娃(T. Kolpakova) 莫古诺娃(A. Morgunova) P·库德里亚夫采娃 埃·沃洛申 该项目的总体思路: 创作了有关俄罗斯文化的最重要杂志的数字版本。 有问题的数据和源类型: 扫描旧拼写的页面 使用Google图书中的旧拼写形式使用可识别的文字层进行扫描 带有一层标准化拼写的文本 最低项目结果: 创建一个包含有关每期期刊的信息的表格(表格的位置,格式) 创建具有20个问题的标准化拼写的语料库 预期产品: 创建具有100个问题的标准化拼写的语料库 创建语料库的网络外壳 最大的项目成果: 为所有版本创建具有标准化拼写的语料库 创建语料库的网络外壳 工作阶段: 预备: 收集有关先前尝试的信息 创建带有所有数字化问题链接的表 定义未编号的问题 文本识别和拼写翻译实验 主要
【文件预览】:
Otechestvennie_zapiski-master
----images()
--------syllabification.png(3KB)
--------french.png(15KB)
--------semi-transfer.png(12KB)
--------headers.png(25KB)
--------service-symbols.png(337B)
----old2new_converter()
--------old2new_converter.py(26KB)
--------templates()
--------old_style_words.py(2KB)
--------sharov.csv(240KB)
--------sse_words.csv(2KB)
--------freq.csv(1.46MB)
--------static()
--------rules.py(3KB)
--------text_processing.py(2KB)
--------text_processing.pyc(2KB)
--------zaliznyak.csv(464KB)
--------adjs_ija.csv(522B)
--------old_style_words.pyc(2KB)
--------rules.pyc(3KB)
--------ozhegov.csv(236KB)
--------verbs_shol.csv(153B)
--------ushakov.csv(277KB)
----list_of_tags.md(1KB)
----corpus()
--------stage_III_refined_spell_corrected()
--------stage_IV()
--------stage_II_converted_to_TEI()
--------stage_I_digitized()
----making_tei.py(8KB)
----README.md(5KB)
----guide.md(5KB)

网友评论