文件名称:origami:一套用于OCR任务的批处理和工具
文件大小:1.19MB
文件格式:ZIP
更新时间:2024-06-11 18:15:35
Python
折纸 折纸是用于OCR处理历史报纸的一套独立的批处理和工具套件。 它涵盖了数字化流程中的许多基本步骤,包括(1)建立用于训练模型的训练数据,以及(2)使用训练后的模型从页面生成Page-XML OCR输出。 除了其特定的功能,折纸是 易于设置 易于使用 基于允许定制的基于文件的中间结果 折纸当前的默认实现功能: DNN分割 变形 阅读顺序检测 简单表支持 页面XML导出 折纸还提供以下其他工具: 注释地面真相 调试 创建带注释的图像 OCR质量评估 安装 基本 conda create --name origami python=3.7 -c defaults -c conda-forge --file origami/requirements/conda.txt conda activate origami pip install -r origami/requirements/