【文件属性】:
文件名称:Otechestvennie_zapiski:项目“祖国2.0笔记”
文件大小:221.1MB
文件格式:ZIP
更新时间:2021-05-08 15:44:29
Python
爱国笔记2.0
参加者
扎科沃罗特纳亚(E. Zakovorotnaya)
于金
科尔帕科娃(T. Kolpakova)
莫古诺娃(A. Morgunova)
P·库德里亚夫采娃
埃·沃洛申
该项目的总体思路:
创作了有关俄罗斯文化的最重要杂志的数字版本。
有问题的数据和源类型:
扫描旧拼写的页面
使用Google图书中的旧拼写形式使用可识别的文字层进行扫描
带有一层标准化拼写的文本
最低项目结果:
创建一个包含有关每期期刊的信息的表格(表格的位置,格式)
创建具有20个问题的标准化拼写的语料库
预期产品:
创建具有100个问题的标准化拼写的语料库
创建语料库的网络外壳
最大的项目成果:
为所有版本创建具有标准化拼写的语料库
创建语料库的网络外壳
工作阶段:
预备:
收集有关先前尝试的信息
创建带有所有数字化问题链接的表
定义未编号的问题
文本识别和拼写翻译实验
主要
【文件预览】:
Otechestvennie_zapiski-master
----images()
--------syllabification.png(3KB)
--------french.png(15KB)
--------semi-transfer.png(12KB)
--------headers.png(25KB)
--------service-symbols.png(337B)
----old2new_converter()
--------old2new_converter.py(26KB)
--------templates()
--------old_style_words.py(2KB)
--------sharov.csv(240KB)
--------sse_words.csv(2KB)
--------freq.csv(1.46MB)
--------static()
--------rules.py(3KB)
--------text_processing.py(2KB)
--------text_processing.pyc(2KB)
--------zaliznyak.csv(464KB)
--------adjs_ija.csv(522B)
--------old_style_words.pyc(2KB)
--------rules.pyc(3KB)
--------ozhegov.csv(236KB)
--------verbs_shol.csv(153B)
--------ushakov.csv(277KB)
----list_of_tags.md(1KB)
----corpus()
--------stage_III_refined_spell_corrected()
--------stage_IV()
--------stage_II_converted_to_TEI()
--------stage_I_digitized()
----making_tei.py(8KB)
----README.md(5KB)
----guide.md(5KB)