文件名称:pdfimagetotext:使用 scantailor、tesseract OCR、pdftk 和 Imagemagick 将 Image-PDF 转换为文本的脚本外壳
文件大小:3KB
文件格式:ZIP
更新时间:2024-07-09 20:22:33
Shell
PDF 图像到文本转换器 这个用 Bash Shell 编写的程序可以将任何 PDF(基于图像的 PDF 或基于文本的 PDF)转换为纯文本。 它使用以下免费软件运行: pdftk(提取PDF页面,一一提取) ImageMagick(将每个页面转换为 PNG 文件) Scantailor(调整 PNG 文件并将它们转换为 TIFF,增强对比度) Tesseract OCR(将 TIFF 转换为文本) 在 debian 上: apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng tesseract-ocr-fra tesseract-ocr-equ imagemagick scantailor pdftk 注意:可能需要在 wheezy 中启用 BACKPORTS 才能拥有最新的 scantailo
【文件预览】:
pdfimagetotext-master
----pdfimagetotext(3KB)
----README.md(2KB)