Ollama OCR :一个强大的光学字符识别(OCR)软件包,它通过使用最先进视觉语言模型的 Ollama 从图像中提取文本。既可作为 Python 包使用,也可作为一个 Streamlit 网页应用程序。
???? 功能特性:
-
多视觉模型支持
- LLaVA 7 B: 适用于实时处理的高效视觉-语言模型(注意:LLaVa 模型有时可能会生成错误的输出)
- Llama 3.2 Vision: 针对复杂文档具有高精度的高级模型
-
多种输出格式
- Markdown: 保留文本格式,包括标题和列表
- 纯文本: 清晰简单的文本提取
- JSON: 结构化的数据格式
- 结构化: 表格和有组织的数据
- 键值对: 提取带有标签的信息
-
批量处理
- 并行处理多个图像
- 每个图像的进度跟踪
- 图像预处理(调整大小、归一化等)
此前的一些 pdf ocr 方法在识别复杂表格方面不理想。
llama3.2-vision:11b
视觉模型我已经提前下载过,但实测效果一般(可以说很差)。我们看下基于该模型进行 pdf 解析的效果具体如何(我抱着很大的期望)。