文件名称:epub-ocr-and-translate:自动OCR PDF,转换输出并生成epub的脚本
文件大小:37KB
文件格式:ZIP
更新时间:2024-05-24 08:57:26
ocr translation tesseract epub Python
epub-ocr-and-translate 一套正在开发中的用于以多种语言创建epub的工具 用于扫描PDF,自动翻译,处理和创建epub和PDF输出的脚本。 按顺序获取依赖关系可能很棘手,目前正在公共AMI上运行,也可能在Docker映像上运行(可以通过docker pull jenh/eoat获得工作映像-抱歉,但是它包含所有texlive内容)。 依存关系: Python,大多数脚本已通过2.7和3.6进行了测试; 一些onmt-helper脚本需要Python 3.6。 使用的非内置模块包括:google.cloudguess_language pycountry。 除非您还安装pyenchant(Fedora或Ubuntu软件包都可以)和guess-language-spirit,否则guess_language将无法正确检测。 requirements.txt显示我的EC2
【文件预览】:
epub-ocr-and-translate-master
----eoat-tool.py(4KB)
----eoat-split.py(961B)
----templates()
--------epub.css(15KB)
--------variables.yaml(186B)
--------paperback.tex(9KB)
----requirements.txt(440B)
----eoat-trans.py(5KB)
----eoat-build.sh(2KB)
----LICENSE(1KB)
----eoat-cleanup.sh(963B)
----eoat-uninstall.sh(553B)
----eoat-install.sh(832B)
----README.md(7KB)
----tests()
--------README.md(59B)
--------req-gl.py(164B)
----eoat-printlang.py(593B)
----eoat-make.py(2KB)
----onmt-helpers()
--------eoat-getbuckets.py(150B)
--------eoat-corpusclean.py(3KB)
--------eoat-trains3.py(3KB)
--------remove-short-lines.py(2KB)
--------EOAT_OpenNMT_py.ipynb(9KB)
--------README.md(7KB)
--------nltksentence.py(2KB)
--------eoat-postprocess.py(5KB)
--------line_compare.sh(305B)
--------eoat-onmtpost.py(830B)
----.gitattributes(158B)
----eoat-expandlang.py(591B)
----eoat-process.sh(258B)
----eoat-ocr.sh(2KB)