背景分析
业务背景与目标
十四五规划:“十四五”规划纲要对“十四五”及未来十余年我国人工智能的发展目标、智能化转型与应用,以及保障措施等多方面作出了部署。 以人工智能为代表的信息技术,将成为我国“十四五”期间重要推力。
IT 环境变化:云计算,容器技术,微服务架构的逐步普及,让我们面对的 IT 系统环境空前的复杂,在复杂的 IT 环境下出现故障的概率大大增加。面对复杂 IT 环境下的故障,如何从相关的海量日志数据中提前发现问题、快速定位问题对业务稳定性与业务故障快速恢复显的更加重要。
业务保障不力:疫情常态化背景下,科技抗疫成为抗疫的重要手段。“抗疫”系统,也发生过多起故障问题。如,2021年12月20日,西安“一码通”崩溃;2022年1月13日,某运营商推出的通信行程码崩溃,导致部分场所无法进入。运营商业务也关乎民生大事,业务保障尤为重要。
业务挑战与问题分析
- 分布式架构带来的挑战
-
监控对象:几何级数增长,人力维护不能胜任
-
调用承载关系极其复杂,业务问题定位困难
-
运维模式存在不足
- 运维分散
-
多级/多部门维护体系,业务流程支撑情况无法有效掌控,全局性问题/故障调度体系不畅
-
全网监控系统按专业建设,监控数据分散,监控方法落后,跨专业定位问题困难
- 面向系统
-
传统运维面向单系统、分专业维护,没有聚焦端到端客户感知
-
单系统跨层故障处理慢、跨域问题/故障处理慢,耗时长,无法实现故障准确定位、故障快速恢复
解决方案
产品价值
-
基础运维:提供灵活的、强大的实时日志检索能力,提高故障定位的效率。此外,以算法能力为支撑,对日志数据进行模式识别以及异常检测,缩短问题发现的时间,提高告警准确率。
-
数据分析:通过各类报表对日志数据进行统计与分析,为运维与运营活动提供数据支撑,更好地挖掘日志数据的价值。
-
统一日志管理:对离散日志进行统一采集、处理、存储以及查询分析,实现日志的有效管理,降低日志采集成本以及日志查找的复杂度,避免故障。
-
业务智能分析:通过日志调用链追踪,帮助运维人员快速分析系统性能消耗的原因、定位异常并解决问题。与此同时,基于日志数据,统计业务交易量、交易成功率、交易响应率等业务指标,帮助用户快速了解业务的关键信息。
-
安全事件管理:通过日志中记录的安全相关信息,对用户异常行为、内部威胁、外部攻击以及数据盗窃等安全事件进行分析,提高企业安全的监控能力。
整体架构
依托AI、大数据、云计算等技术赋能,构建以数据资产为基础、业务场景为导向、实现“质量有保障、效率可提升、成本可管理”的场景导向,提升数字化决策能力和管控水平,助力推进管控智能化。
日志分析
日志应用面临的挑战
-
海量数据的实时处理:大型系统每天产生的日志能达到几十TB,需要实时的对系统产生的日志数据进行存储、检索和分析。
-
日志信息的非结构化:日志信息得益于其*的文本表述形式,可以包含丰富的系统信息,这也给日志的信息的分析带来挑战。
-
日志信息的不稳定:随着现代IT系统的不断更新迭代,日志的模式类型、模式的数量会随之变化,要求日志分析的手段具有高度的鲁棒性。
-
关联其他系统信息:运维领域的事件的发生不仅表现在日志信息上,如何结合指标、调用链等信息综合系统的状态也是日志分析的一大挑战。
智能化日志管理与分析流程
本方案基于大数据技术与智能算法来实现离散日志数据的统一采集、处理、存储与查询分析;同时支持日志检索、日志模式识别、日志可视化分析、日志监控、日志脱敏、日志关联查询等功能,可应用于统一日志管理、基于日志的运维监控与分析、调用链监控与追踪、安全审计与合规、各种业务分析等数字化运维和运营场景。
统一日志采集
本方案可使用云智慧自研的CDC采集器(全称Cloudwise Data Collector)来采集日志数据。该采集器针对日志、监控信息等数据,采用统一的数据采集框架和任务调度机制来实现海量多源数据的统一采集与采集任务的统一管理。
可视化数据处理流程
DOLA产品提供可视化数据处理pipeline,支持通过拖拽的方式从组件库拖拽组件来创建数据处理流程,使用灵活、操作简便。包含以下功能:
-
多种数据处理组件:支持grok拆分、JSON转换、 XML解析、CSV解析、数据脱敏……等30多种数据处理组件,全方位满足用户数据解析的需求。
-
流程单步调试:支持数据处理流程单步调试,在定义数据处理流程时即可进行正确性验证。
高可靠的日志数据存储
DOLA产品采用高性能深度列式存储集群,能够满足PB级数据规模下的数据存储需求。
高可靠的日志数据存储
DOLA产品提供强大的日志搜索能力,支持SPL语法,简单易用,方便用户上手。例如:输入联想、搜索历史、划词分析、日志上下文、自定义常用搜索、结果导出、数据脱敏等能力
灵活的日志关联查询
通过企业各个业务系统之间的关联字段建立业务系统之间的关联模型,并通过关联模型来获取某个业务流程在各个业务系统产生中的关联日志,帮助运维人员快速梳理业务流程下的日志,全面分析问题,实现问题的快速定位。
日志全链路追踪
分布式微服务架构下,随着业务的发展,系统会变得越来越大,各个服务之间的调用关系也变得越来越复杂。如何采用无侵入的方式快速分析系统性能消耗的原因、定位异常并解决问题是运维人员面临的一大挑战。DOLA产品提供面向业务的服务拓扑展示、服务分析、全链路追踪,帮助运维人员快速分析系统性能消耗的根本原因,追踪交易链路,准确定位异常请求。
基于规则的日志异常告警
DOLA具备通过规则或者算法识别异常的日志并进行告警通知的能力。其中规则告警是基于关键字及人工规则而触发告警的一种告警方式,支持创建与查看监控规则、管理日志监控规则、批量启用停止日志监控规则。并可以对不同告警联系人设置分组功能。
基于模式识别的日志异常告警
同一类型模式的日志往往具有某类共同的特征,例如相似的日志结构。日志模式识别利用聚类算法将日志文本中相似度高的数据聚合在一起,提取共同的日志模式,帮助用户快速发现异常模式日志。
模式识别:日志的一元 场景
模式识别:日志语义分类
-
异常日志识别:使用机器学习模型,对海量日志自动进行识别,找出其中的 异常日志。目前在1.2万个测试样本中,达到人类水平。
-
异常日志分类:使用机器学习模型,对异常日志进行进一步分类,分为 1:文件 2:网络异常 3:数据库异常 4:系统异常 5:其他异常。
模式识别:日志转化指标
将原始通过日志模式识别转化为指标数据,再使用指标异常检测算法对日志进行异常检测,在发现异常时对日志进行多维度分析。从异常检测的分析结果支撑快速定位故障原因的能力
模式识别:日志转化指标异常检测
案例分享
系统用户行为日志分析
将业务系统各种行为日志统一纳管至平台并加以分析,下图中展示了用户登录模式的日志。在时间窗口内各个时段的日志数量情况、帮助运维人员缩小范围、定位业务系统发生的故障点。
突发事件产生的异常
模型自适应能力
方案总结
技术特点总结
DOLA产品采用简洁、轻量、高效、稳定、可扩展的技术架构,可以兼容ES、双引擎;采用基于列式存储数据库Clickhouse,在数据写入、响应时间、部署规模、高可用等各方面具有良好的表现,能够满足客户各种业务场景下日志存储的需求。
性能优势总结
价值呈现
开源项目推荐
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
如果喜欢我们的项目,请不要忘记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,我们需要您的鼓励与支持。此外,即刻参与 FlyFish 项目贡献成为 FlyFish Contributor 的同时更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址: https://gitee.com/CloudWise/fly-fish
微信扫描识别下方二维码,备注【飞鱼】加入 AIOps 社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~