RAGFlow:引领OCR与文档解析技术革新的下一代RAG引擎

时间:2024-10-25 09:02:20

引言

人工智能的蓬勃发展浪潮中,检索增强生成(RAG)技术凭借其独特优势,迅速成为研究和应用的焦点。RAG技术巧妙地将大型语言模型(LLMs)的卓越生成能力与高效的信息检索系统相结合,为用户带来前所未有的交互体验。然而,随着技术的深入应用,一系列挑战也逐渐浮出水面。

现有的RAG系统在处理海量数据时,常常面临效率和准确性的双重考验。尽管LLMs在生成流畅文本方面表现出色,但在面对复杂、非结构化的数据时,它们往往难以精准捕捉和提取关键信息。此外,RAG系统在数据管理和理解方面的局限性也导致了一个问题——即“垃圾输入,垃圾输出”(GIGOut),意味着如果输入数据的质量不高,那么生成的答案也很难达到预期的准确度。

正是在这样的背景下,RAGFlow应运而生,作为一种端到端的RAG解决方案,它旨在通过深度文档理解技术,攻克现有RAG技术在数据处理和答案生成方面的难题。RAGFlow不仅能够处理多种格式的文档,还能智能地识别文档中的结构和内容,从而确保高质量的数据输入。RAGFlow的设计核心理念是“高质量输入,高质量输出”,它提供可解释性和可控性的生成结果,使用户能够更加信任和依赖系统提供的答案。

2024年4月1日,RAGFlow正式宣布开源,这一消息迅速在技术界掀起热潮。开源当天,RAGFlow在GitHub上便迅速吸引了数千的关注,短短一周内便收获了2900颗星,这不仅彰显了社区对RAGFlow的高度认可,也充分展示了广大开发者对这一新技术的浓厚兴趣与期待。

RAGFlow核心功能

  • 深度文档理解:"Quality in, quality out",RAGFlow 基于深度文档理解,能够从各类复杂格式的非结构化数据中提取真知灼见。真正在无限上下文(token)的场景下快速完成大海捞针测试。对于用户上传的文档,它需要自动识别文档的布局,包括标题、段落、换行等,还包含难度很大的图片和表格。对于表格来说,不仅仅要识别出文档中存在表格,还会针对表格的布局做进一步识别,包括内部每一个单元格,多行文字是否需要合并成一个单元格等。并且表格的内容还会结合表头信息处理,确保以合适的形式送到数据库,从而完成 RAG 针对这些细节数字的“大海捞针”。
  • 可控可解释的文本切片:RAGFlow 提供多种文本模板,用户可以根据需求选择合适的模板,确保结果的可控性和可解释性。因此 RAGFlow 在处理文档时,给了不少的选择:Q&A,Resume,Paper,Manual,Table,Book,Law,通用... 。当然,这些分类还在不断继续扩展中,处理过程还有待完善。后续还会抽象出更多共通的东西,使各种定制化的处理更加容易。
  • 降低幻觉:RAGFlow 是一个完整的 RAG 系统,而目前开源的 RAG,大都忽视了 RAG 本身的最大优势之一:可以让 LLM 以可控的方式回答问题,或者换种说法:有理有据、消除幻觉。我们都知道,随着模型能力的不同,LLM 多少都会有概率会出现幻觉,在这种情况下, 一款 RAG 产品应该随时随地给用户以参考,让用户随时查看 LLM 是基于哪些原文来生成答案的,这需要同时生成原文的引用链接,并允许用户的鼠标 hover 上去即可调出原文的内容,甚至包含图表。如果还不能确定,再点一下便能定位到原文。RAGFlow 的文本切片过程可视化,支持手动调整,答案提供关键引用的快照并支持追根溯源,从而降低幻觉的风险。
  • 兼容各类异构数据源:RAGFlow 支持 支持丰富的文件类型,包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。对于无序文本数据,RAGFlow 可以自动提取其中的关键信息并转化为结构化表示;而对于结构化数据,它则能灵活切入,挖掘内在的语义联系。最终将这两种不同来源的数据统一进行索引和检索,为用户提供一站式的数据处理和问答体验。
  • 自动化 RAG 工作流:RAGFlow 支持全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统;大语言模型 LLM 以及向量模型均支持配置,用户可以根据实际需求自主选择。;基于多路召回、融合重排序,能够权衡上下文语义和关键词匹配两个维度,实现高效的相关性计算;提供易用的 API,可以轻松集成到各类企业系统,无论是对个人用户还是企业开发者,都极大方便了二次开发和系统集成工作。

技术架构

RAGFlow系统架构

RAGFlow 系统是一个高效、智能的信息处理平台,它通过一系列精心设计的组件,实现了对复杂查询的快速响应和精准处理。这个系统的核心组件包括:

  • 文档解析器:这是 RAGFlow 系统的“大脑”,负责将各种格式的文档进行解析,从中提取出文本、图像和表格等关键内容。无论是PDF、Word文档还是Excel表格,文档解析器都能够准确捕捉信息,为后续的处理打下基础。
  • 查询分析器:这个组件是 RAGFlow 系统的“神经系统”,它对用户的查询进行深入分析,识别并提取出查询中的关键信息。通过这种分析,系统能够更准确地理解用户的需求,为检索工作提供精确的指导。
  • 检索:这是 RAGFlow 系统的“搜索引擎”,它使用查询分析器提供的关键信息,从海量文档中快速检索出与之相关的信息。检索组件的强大能力保证了用户能够及时获得所需的数据。
  • 重排:这个组件是 RAGFlow 系统的“过滤器”,它对检索到的信息进行排序和过滤,确保最终呈现给用户的信息是最相关、最有价值的。通过这种方式,系统能够去除冗余和不相关的数据,提高信息的准确性和可用性。
  • LLM:作为 RAGFlow 系统的“语言生成器”,LLM(大型语言模型)负责将排序后的信息整合并生成最终的答案或输出。LLM的强大生成能力不仅能够确保答案的准确性,还能够使答案表达得更加自然和流畅。

这些组件共同构成了RAGFlow系统的强大架构,使得它能够高效地处理用户的查询,快速地从文档中检索信息,并生成准确、有用的答案。这个系统不仅提高了信息处理的效率,也极大地提升了用户的使用体验。

 

RAG 系统的架构是一个精密而高效的工作流程,它通过一系列精心设计的组件,确保了用户查询的准确处理和高质量答案的生成。这个系统的工作流程可以概括为以下几个步骤:

  • 首先,当用户输入一个查询时,查询分析器便开始工作。它对用户的查询进行深入分析,从中提取出关键信息,这些信息是后续检索工作的基础。
  • 接下来,检索模块根据查询分析器提供的关键信息,在大量的文档资源中寻找与之相关的数据。这一步骤是在整个系统中非常关键的一环,因为它直接决定了后续答案的相关性和准确性。
  • 然后,重排模块对检索到的信息进行进一步的排序和过滤。这一步骤确保了最终呈现给用户的信息是经过优化的,去除了不相关或冗余的内容,使得答案更加精确和有价值。
  • 最后,LLM(大型语言模型)根据重排模块提供的信息,生成最终的答案或输出。LLM的强大生成能力使得答案不仅准确,而且表达流畅自然,就像一个知识丰富的助手在回答用户的问题一样。

通过这样的工作流程,RAG系统架构能够高效地处理用户的查询,从文档中提取有价值的信息,并生成准确、有用的答案。这种系统不仅提高了信息检索的效率,也极大地提升了用户体验。

DeepDoc:深度文档理解的基石

DeepDoc 是 RAGFlow 的核心组件,它利用视觉信息和解析技术,对文档进行深度理解,提取文本、表格和图像等信息。DeepDoc 的功能模块包括:

  • OCR 技术:支持多种语言和字体,并能够处理复杂的文档布局和图像质量。

  • 布局识别(布局分析识别)技术RAGFlow 使用 Yolov8 进行 OCR/布局识别/TSR(表格结构识别),识别文档的布局结构,例如标题、段落、表格、图像等。

  • 表格结构识别 (TSR):识别表格的结构,例如行列、表头、单元格合并等,并将其转换为自然语言句子。

  • 文档解析:支持解析 PDF、DOCX、EXCEL 和 PPT 等多种文档格式,并提取文本块、表格和图像等信息。
  • 简历解析:将简历中的非结构化文本解析为结构化数据,例如姓名、联系方式、工作经历、教育背景等。

LLM 和嵌入模型在 RAGFlow 中的作用

在 RAGFlow 中,LLM(Large Language Models,大型语言模型)和嵌入模型(Embedding Models)扮演着至关重要的角色,它们共同协作以实现高效的信息检索和生成任务。

LLM是RAGFlow中的核心组件之一,负责理解和生成自然语言。在RAGFlow中,LLM的主要作用包括:

  • 理解用户查询: LLM能够理解用户的自然语言查询,并将其转化为可执行的指令或问题。
  • 生成回答: 基于用户查询和检索到的信息,LLM能够生成流畅、连贯且相关性强的回答。
  • 提供可控性: LLM可以根据用户的指示生成特定风格或格式的回答,确保生成内容的可控性和准确性。
  • 跨语言能力: 对于多语言环境下的RAG任务,LLM需要具备跨语言理解和生成的能力,以便在不同语言之间进行有效的信息检索和转换。

嵌入模型在RAGFlow中主要用于将文本数据转换为向量表示,这对于信息检索和相似性比较至关重要。嵌入模型的主要作用包括:

  • 文本向量化: 嵌入模型将文本(如文档、段落、句子等)转换为数值向量,这些向量能够表示文本的语义信息。
  • 相似性比较: 通过计算向量之间的相似度,嵌入模型可以帮助 RAGFlow 快速找到与用户查询最相关的信息。
  • 数据检索: 嵌入模型使得RAGFlow能够在大规模数据集中高效地执行检索任务,尤其是在处理非结构化数据时,如文档和图片。
  • 多模态能力: 对于包含图表、图片等非文本元素的文档,嵌入模型可以辅助提取和理解这些元素的语义信息,增强RAGFlow的多模态处理能力。

在 RAGFlow 中,LLM 和嵌入模型的结合使用,使得系统不仅能够理解复杂的自然语言查询,还能够在海量数据中快速准确地检索到相关信息,并生成高质量的回答。这种协同工作机制大大提高了RAGFlow在知识库问答、企业数据集成和多模态信息处理等场景下的应用潜力和效率。

文本分块过程中的可视化和人工干预

RAGFlow在处理文档时,特别强调了智能文档处理的可视化和可解释性。这意味着用户不仅可以获得由系统处理后的结果,还能够清晰地看到文档是如何被分块和解析的。这样的设计使得用户可以对AI的处理结果进行核查和必要的干预,确保最终输出的准确性和可靠性。

在文本分块过程中,RAGFlow首先会对用户上传的文档进行结构识别,这包括但不限于标题、段落、换行等。对于更为复杂的元素,如图片和表格,RAGFlow也会进行详细的布局识别和结构分析。例如,在处理表格时,系统不仅会识别出表格的存在,还会进一步识别表格内部的每一个单元格,以及多行文字是否需要合并成一个单元格等。这些信息都会被合理地处理并结合表头信息,以确保数据的正确性和完整性。

RAGFlow的可视化功能允许用户查看文档解析的具体结果。用户可以看到文档被分割成了多少块,各种图表是如何处理的。如果系统识别的结果与用户的预期有所出入,用户可以进行适当的干预。这种干预可能包括调整分块的方式、合并或分割某些部分,以及修改表格的识别结果等。RAGFlow提供了直观的用户界面,使得用户可以轻松地进行这些操作。

此外,RAGFlow还提供了一种机制,允许用户通过点击来定位到原文,对比处理结果和原文的差异。这种对比功能不仅可以帮助用户确认AI的处理是否准确,还可以让用户对处理过程有更多的了解和控制。这种可视化和可解释性的设计,大大提高了用户对AI处理结果的信任度,同时也使得RAGFlow成为一个更加强大和灵活的工具。

RAGFlow的安装与体验请看另一篇文章内容:RAGFlow:安装与体验-****博客