【文件属性】:
文件名称:PDFtoTXT:Python代码从PDF文件(OCR)读取文本
文件大小:6KB
文件格式:ZIP
更新时间:2021-02-06 07:56:24
python pdf ocr ubuntu tesseract
PDF到TXT
使用Python代码对PDF文件进行OCR识别并将文本导出到TXT文件。
LocalOCR :基于
CloudOCR :基于
在Ubuntu上安装LocalOCR
apt-get install python-pyocr python-wand imagemagick
apt-get install libleptonica-dev tesseract-ocr-dev
apt-get install tesseract-ocr-ita
pip install -r requirements.txt
在Ubuntu上设置CloudOCR
安装
apt-get inst
【文件预览】:
PDFtoTXT-master
----requirements.txt(70B)
----LocalOCR.py(4KB)
----LICENSE(1KB)
----CloudOCR.py(4KB)
----README.md(680B)
----.gitignore(1KB)