理想很丰满的Ollama-OCR-项目介绍

时间:2024-12-25 07:03:02

Ollama OCR :一个强大的光学字符识别(OCR)软件包,它通过使用最先进视觉语言模型的 Ollama 从图像中提取文本。既可作为 Python 包使用,也可作为一个 Streamlit 网页应用程序。

???? 功能特性:

  • 多视觉模型支持
    • LLaVA 7 B: 适用于实时处理的高效视觉-语言模型(注意:LLaVa 模型有时可能会生成错误的输出)
    • Llama 3.2 Vision: 针对复杂文档具有高精度的高级模型
  • 多种输出格式
    • Markdown: 保留文本格式,包括标题和列表
    • 纯文本: 清晰简单的文本提取
    • JSON: 结构化的数据格式
    • 结构化: 表格和有组织的数据
    • 键值对: 提取带有标签的信息
  • 批量处理
    • 并行处理多个图像
    • 每个图像的进度跟踪
    • 图像预处理(调整大小、归一化等)

此前的一些 pdf ocr 方法在识别复杂表格方面不理想。

llama3.2-vision:11b 视觉模型我已经提前下载过,但实测效果一般(可以说很差)。我们看下基于该模型进行 pdf 解析的效果具体如何(我抱着很大的期望)。