文件名称:OCRProcessing:处理藏文OCR的Python脚本
文件大小:50KB
文件格式:ZIP
更新时间:2024-07-16 09:52:34
Python
##################### OCRProcessing 脚本######################### #### 作者:Than Grove 日期:2013 年 2 月 8 日 这些是我正在创建的脚本,用于处理 Zach 制作的 NGB 藏文扫描的 OCR XML 输出。 OCR 输出是一个 XML 文件(带有 .txt 扩展名),每个集合的卷。 这些脚本的目标是 创建一个过程,根据目录数据,它将单个卷文件分解为文本文件,这些文本文件将包含每个文本的 XML 标记文件。 此过程将为每个文本分配一个唯一的顺序 ID。 为每个以文本 id 命名的文本创建单独的 bibl 记录。 创建一个 XML 文件,该文件在为 THL 系统设计的 TEI Tibbibl 标记中对目录层次结构 (cat->vol->text) 进行编码,该标记将引用上述文本文件和 bibl 文
【文件预览】:
OCRProcessing-master
----renumberCat.py(808B)
----.gitignore(501B)
----addBiblRefs.py(2KB)
----addLengthToVols.py(1KB)
----convertVolToSimple_old.py(4KB)
----testTextBreaks.py(4KB)
----findTextBreaks.py(4KB)
----loadCatalog.py(789B)
----writeTexts.py(4KB)
----checkCatalogPagination.py(3KB)
----README.md(2KB)
----extractVolNames.py(2KB)
----test.py(1KB)
----createCatInfo.py(777B)
----createCatXML.py(698B)
----catToCSV.py(753B)
----OCRXml()
--------__init__.pyc(270B)
--------templates()
--------__init__.py(64B)
--------OCRVolume.pyc(8KB)
--------Text.pyc(11KB)
--------Vars.py(649B)
--------Functions.pyc(1KB)
--------Vars.pyc(477B)
--------Catalog.py(17KB)
--------Catalog.pyc(14KB)
--------OCRVolume.py(9KB)
--------Text.py(12KB)
--------Functions.py(485B)
----convertVolToSimple.py(4KB)