理想很丰满的Ollama-OCR-项目介绍

Ollama OCR ：一个强大的光学字符识别（OCR）软件包，它通过使用最先进视觉语言模型的 Ollama 从图像中提取文本。既可作为 Python 包使用，也可作为一个 Streamlit 网页应用程序。

???? 功能特性：

多视觉模型支持
- LLaVA 7 B: 适用于实时处理的高效视觉-语言模型（注意：LLaVa 模型有时可能会生成错误的输出）
- Llama 3.2 Vision: 针对复杂文档具有高精度的高级模型
多种输出格式
- Markdown: 保留文本格式，包括标题和列表
- 纯文本: 清晰简单的文本提取
- JSON: 结构化的数据格式
- 结构化: 表格和有组织的数据
- 键值对: 提取带有标签的信息
批量处理
- 并行处理多个图像
- 每个图像的进度跟踪
- 图像预处理（调整大小、归一化等）

此前的一些 pdf ocr 方法在识别复杂表格方面不理想。

llama3.2-vision:11b 视觉模型我已经提前下载过，但实测效果一般（可以说很差）。我们看下基于该模型进行 pdf 解析的效果具体如何（我抱着很大的期望）。

秒客网