360多模态及文档理解大模型技术亮相全球机器学习技术大会,共探AI技术新前沿...-360VL通过自然语言进行多模态识别能力展示:

时间:2024-11-18 07:56:38

36943e1453e5c6932346452628a58cc9.png

c0e87751e5c7a7521847d1a8f4ed0e6c.png

在业务落地方面,360的多模态大模型已经在智能产品、儿童手表、图像标签化、视频监控等多个场景中得到应用。例如,儿童手表通过拍照学英语的功能,可以实时分析照片中的主体位置和形象,提供中英文描述。在视频监控场景下,360智能产品能够准确识别异常物体和人的进入,实现开放世界目标检测。此外,360的AI智能摄像机和视觉云的SaaS平台已经为超过五万家企业提供了数字化解决方案。

0a21cbdea7efd1194dd5b67803232976.png

刘焕勇,360人工智能研究院知识图谱及文档理解方向负责人,此次分享题目为《文档理解及知识图谱增强大模型应用实践》,介绍了面向RAG等场景的文档解析技术、知识图谱(GraphRAG)和RAG优化一线经验,并重点讲述了文档解析版式分析、图表理解等相关研发成果。刘焕勇先详细比较了OCR-pipeline、OCR-free等各技术路线,同时介绍了360在文档解析领域各模块的研发思路,包括版式分析、表格解析、公式解析、流程图、数值图等解析、markdown和目录生成逻辑,以及如何通过RAG多环节优化策略提升大模型在文档场景中的应用效果。

在对外开源方面,开源的轻量化版式分析模型360Layout-Analysis具有细分领域、精细化标注、占用空间小、推理速度快等特点,受到广泛欢迎。

在对外领先性方面,文档理解方向上的研究成果在国际上也具有强劲竞争力。在2024国际模式识别会议(ICPR 2024)人工智能、模式识别和机器学习赛道-“多行数学表达式识别任务”竞赛(ICPR 2024 Competition on Multi-line Mathematical Expressions Recognition)中,360公式识别模型以绝对优势获得冠军!

8f50004a8124fb1751d88118850b0345.png 复杂公式转Latex示例

在业务落地方面,360文档理解整体模块作为“360知识大模型”的一部分,已在ToB产品“360智能文档云”中落地。据悉,在招投标过程中能力相比竞品有较大优势,已获得隧道股份等客户青睐。

高精度表格识别能力展示:右侧为pdf原文,左侧为识别的结果:模型识别出的表格可直接入库。

46f3d7efe2932212ff7bcd57e69163ca.png

360人工智能研究院的专家们在大会上的演讲,不仅展示了360长期在多模态生成及文档理解等AI大模型技术方面的领先地位,并为未来的技术革新和应用实践提供了宝贵的思路和方向。

关于360人工智能研究院:360人工智能研究院成立于2015年,隶属于360集团技术中台,下辖视觉引擎和认知引擎两个研发团队。研究院核心成员和团队多次荣获 AI 相关比赛冠军 / 提名奖项,发表顶会、顶刊论文数十篇。2023 年以来着重攻坚LLM大语言模型、CV 大模型、多模态大模型和知识大模型等前沿领域。在业务落地方面,研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等 360 集团全量业务场景支持,并服务于亿级用户。

本文提到的模型开源地址

360VL多模态大模型:

GitHub 地址:https://github.com/360CVGroup/360VL

Huggingface 地址:https://huggingface.co/qihoo360/360VL-70B

360Layout-Analysis版式识别模型:

Github地址:https://github.com/360AILAB-NLP/360LayoutAnalysis;

模型权重-huggingface地址:https://huggingface.co/qihoo360/360LayoutAnalysis