RAGFlow：引领OCR与文档解析技术革新的下一代RAG引擎

引言

在人工智能的蓬勃发展浪潮中，检索增强生成（RAG）技术凭借其独特优势，迅速成为研究和应用的焦点。RAG技术巧妙地将大型语言模型（LLMs）的卓越生成能力与高效的信息检索系统相结合，为用户带来前所未有的交互体验。然而，随着技术的深入应用，一系列挑战也逐渐浮出水面。

现有的RAG系统在处理海量数据时，常常面临效率和准确性的双重考验。尽管LLMs在生成流畅文本方面表现出色，但在面对复杂、非结构化的数据时，它们往往难以精准捕捉和提取关键信息。此外，RAG系统在数据管理和理解方面的局限性也导致了一个问题——即“垃圾输入，垃圾输出”（GIGOut），意味着如果输入数据的质量不高，那么生成的答案也很难达到预期的准确度。

正是在这样的背景下，RAGFlow应运而生，作为一种端到端的RAG解决方案，它旨在通过深度文档理解技术，攻克现有RAG技术在数据处理和答案生成方面的难题。RAGFlow不仅能够处理多种格式的文档，还能智能地识别文档中的结构和内容，从而确保高质量的数据输入。RAGFlow的设计核心理念是“高质量输入，高质量输出”，它提供可解释性和可控性的生成结果，使用户能够更加信任和依赖系统提供的答案。

2024年4月1日，RAGFlow正式宣布开源，这一消息迅速在技术界掀起热潮。开源当天，RAGFlow在GitHub上便迅速吸引了数千的关注，短短一周内便收获了2900颗星，这不仅彰显了社区对RAGFlow的高度认可，也充分展示了广大开发者对这一新技术的浓厚兴趣与期待。

RAGFlow核心功能

深度文档理解："Quality in, quality out"，RAGFlow 基于深度文档理解，能够从各类复杂格式的非结构化数据中提取真知灼见。真正在无限上下文（token）的场景下快速完成大海捞针测试。对于用户上传的文档，它需要自动识别文档的布局，包括标题、段落、换行等，还包含难度很大的图片和表格。对于表格来说，不仅仅要识别出文档中存在表格，还会针对表格的布局做进一步识别，包括内部每一个单元格，多行文字是否需要合并成一个单元格等。并且表格的内容还会结合表头信息处理，确保以合适的形式送到数据库，从而完成 RAG 针对这些细节数字的“大海捞针”。
可控可解释的文本切片：RAGFlow 提供多种文本模板，用户可以根据需求选择合适的模板，确保结果的可控性和可解释性。因此 RAGFlow 在处理文档时，给了不少的选择：Q&A，Resume，Paper，Manual，Table，Book，Law，通用... 。当然，这些分类还在不断继续扩展中，处理过程还有待完善。后续还会抽象出更多共通的东西，使各种定制化的处理更加容易。
降低幻觉：RAGFlow 是一个完整的 RAG 系统，而目前开源的 RAG，大都忽视了 RAG 本身的最大优势之一：可以让 LLM 以可控的方式回答问题，或者换种说法：有理有据、消除幻觉。我们都知道，随着模型能力的不同，LLM 多少都会有概率会出现幻觉，在这种情况下，一款 RAG 产品应该随时随地给用户以参考，让用户随时查看 LLM 是基于哪些原文来生成答案的，这需要同时生成原文的引用链接，并允许用户的鼠标 hover 上去即可调出原文的内容，甚至包含图表。如果还不能确定，再点一下便能定位到原文。RAGFlow 的文本切片过程可视化，支持手动调整，答案提供关键引用的快照并支持追根溯源，从而降低幻觉的风险。
兼容各类异构数据源：RAGFlow 支持支持丰富的文件类型，包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。对于无序文本数据，RAGFlow 可以自动提取其中的关键信息并转化为结构化表示；而对于结构化数据，它则能灵活切入，挖掘内在的语义联系。最终将这两种不同来源的数据统一进行索引和检索，为用户提供一站式的数据处理和问答体验。
自动化 RAG 工作流：RAGFlow 支持全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统；大语言模型 LLM 以及向量模型均支持配置，用户可以根据实际需求自主选择。；基于多路召回、融合重排序，能够权衡上下文语义和关键词匹配两个维度，实现高效的相关性计算；提供易用的 API，可以轻松集成到各类企业系统，无论是对个人用户还是企业开发者，都极大方便了二次开发和系统集成工作。

技术架构

RAGFlow系统架构

RAGFlow 系统是一个高效、智能的信息处理平台，它通过一系列精心设计的组件，实现了对复杂查询的快速响应和精准处理。这个系统的核心组件包括：

文档解析器：这是 RAGFlow 系统的“大脑”，负责将各种格式的文档进行解析，从中提取出文本、图像和表格等关键内容。无论是PDF、Word文档还是Excel表格，文档解析器都能够准确捕捉信息，为后续的处理打下基础。
查询分析器：这个组件是 RAGFlow 系统的“神经系统”，它对用户的查询进行深入分析，识别并提取出查询中的关键信息。通过这种分析，系统能够更准确地理解用户的需求，为检索工作提供精确的指导。
检索：这是 RAGFlow 系统的“搜索引擎”，它使用查询分析器提供的关键信息，从海量文档中快速检索出与之相关的信息。检索组件的强大能力保证了用户能够及时获得所需的数据。
重排：这个组件是 RAGFlow 系统的“过滤器”，它对检索到的信息进行排序和过滤，确保最终呈现给用户的信息是最相关、最有价值的。通过这种方式，系统能够去除冗余和不相关的数据，提高信息的准确性和可用性。
LLM：作为 RAGFlow 系统的“语言生成器”，LLM（大型语言模型）负责将排序后的信息整合并生成最终的答案或输出。LLM的强大生成能力不仅能够确保答案的准确性，还能够使答案表达得更加自然和流畅。

这些组件共同构成了RAGFlow系统的强大架构，使得它能够高效地处理用户的查询，快速地从文档中检索信息，并生成准确、有用的答案。这个系统不仅提高了信息处理的效率，也极大地提升了用户的使用体验。

RAG 系统的架构是一个精密而高效的工作流程，它通过一系列精心设计的组件，确保了用户查询的准确处理和高质量答案的生成。这个系统的工作流程可以概括为以下几个步骤：

首先，当用户输入一个查询时，查询分析器便开始工作。它对用户的查询进行深入分析，从中提取出关键信息，这些信息是后续检索工作的基础。
接下来，检索模块根据查询分析器提供的关键信息，在大量的文档资源中寻找与之相关的数据。这一步骤是在整个系统中非常关键的一环，因为它直接决定了后续答案的相关性和准确性。
然后，重排模块对检索到的信息进行进一步的排序和过滤。这一步骤确保了最终呈现给用户的信息是经过优化的，去除了不相关或冗余的内容，使得答案更加精确和有价值。
最后，LLM（大型语言模型）根据重排模块提供的信息，生成最终的答案或输出。LLM的强大生成能力使得答案不仅准确，而且表达流畅自然，就像一个知识丰富的助手在回答用户的问题一样。

通过这样的工作流程，RAG系统架构能够高效地处理用户的查询，从文档中提取有价值的信息，并生成准确、有用的答案。这种系统不仅提高了信息检索的效率，也极大地提升了用户体验。

DeepDoc：深度文档理解的基石

DeepDoc 是 RAGFlow 的核心组件，它利用视觉信息和解析技术，对文档进行深度理解，提取文本、表格和图像等信息。DeepDoc 的功能模块包括：

OCR 技术：支持多种语言和字体，并能够处理复杂的文档布局和图像质量。

布局识别（布局分析识别）技术：RAGFlow 使用 Yolov8 进行 OCR/布局识别/TSR（表格结构识别），识别文档的布局结构，例如标题、段落、表格、图像等。

表格结构识别 (TSR)：识别表格的结构，例如行列、表头、单元格合并等，并将其转换为自然语言句子。

文档解析：支持解析 PDF、DOCX、EXCEL 和 PPT 等多种文档格式，并提取文本块、表格和图像等信息。
简历解析：将简历中的非结构化文本解析为结构化数据，例如姓名、联系方式、工作经历、教育背景等。

LLM 和嵌入模型在 RAGFlow 中的作用

在 RAGFlow 中，LLM（Large Language Models，大型语言模型）和嵌入模型（Embedding Models）扮演着至关重要的角色，它们共同协作以实现高效的信息检索和生成任务。

LLM是RAGFlow中的核心组件之一，负责理解和生成自然语言。在RAGFlow中，LLM的主要作用包括：

理解用户查询： LLM能够理解用户的自然语言查询，并将其转化为可执行的指令或问题。
生成回答： 基于用户查询和检索到的信息，LLM能够生成流畅、连贯且相关性强的回答。
提供可控性： LLM可以根据用户的指示生成特定风格或格式的回答，确保生成内容的可控性和准确性。
跨语言能力： 对于多语言环境下的RAG任务，LLM需要具备跨语言理解和生成的能力，以便在不同语言之间进行有效的信息检索和转换。

嵌入模型在RAGFlow中主要用于将文本数据转换为向量表示，这对于信息检索和相似性比较至关重要。嵌入模型的主要作用包括：

文本向量化： 嵌入模型将文本（如文档、段落、句子等）转换为数值向量，这些向量能够表示文本的语义信息。
相似性比较： 通过计算向量之间的相似度，嵌入模型可以帮助 RAGFlow 快速找到与用户查询最相关的信息。
数据检索： 嵌入模型使得RAGFlow能够在大规模数据集中高效地执行检索任务，尤其是在处理非结构化数据时，如文档和图片。
多模态能力： 对于包含图表、图片等非文本元素的文档，嵌入模型可以辅助提取和理解这些元素的语义信息，增强RAGFlow的多模态处理能力。

在 RAGFlow 中，LLM 和嵌入模型的结合使用，使得系统不仅能够理解复杂的自然语言查询，还能够在海量数据中快速准确地检索到相关信息，并生成高质量的回答。这种协同工作机制大大提高了RAGFlow在知识库问答、企业数据集成和多模态信息处理等场景下的应用潜力和效率。

文本分块过程中的可视化和人工干预

RAGFlow在处理文档时，特别强调了智能文档处理的可视化和可解释性。这意味着用户不仅可以获得由系统处理后的结果，还能够清晰地看到文档是如何被分块和解析的。这样的设计使得用户可以对AI的处理结果进行核查和必要的干预，确保最终输出的准确性和可靠性。

在文本分块过程中，RAGFlow首先会对用户上传的文档进行结构识别，这包括但不限于标题、段落、换行等。对于更为复杂的元素，如图片和表格，RAGFlow也会进行详细的布局识别和结构分析。例如，在处理表格时，系统不仅会识别出表格的存在，还会进一步识别表格内部的每一个单元格，以及多行文字是否需要合并成一个单元格等。这些信息都会被合理地处理并结合表头信息，以确保数据的正确性和完整性。

RAGFlow的可视化功能允许用户查看文档解析的具体结果。用户可以看到文档被分割成了多少块，各种图表是如何处理的。如果系统识别的结果与用户的预期有所出入，用户可以进行适当的干预。这种干预可能包括调整分块的方式、合并或分割某些部分，以及修改表格的识别结果等。RAGFlow提供了直观的用户界面，使得用户可以轻松地进行这些操作。

此外，RAGFlow还提供了一种机制，允许用户通过点击来定位到原文，对比处理结果和原文的差异。这种对比功能不仅可以帮助用户确认AI的处理是否准确，还可以让用户对处理过程有更多的了解和控制。这种可视化和可解释性的设计，大大提高了用户对AI处理结果的信任度，同时也使得RAGFlow成为一个更加强大和灵活的工具。

RAGFlow的安装与体验请看另一篇文章内容：RAGFlow:安装与体验-****博客

秒客网