更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，并进入官方交流群

DataLeap 是火山引擎自研的一站式大数据中台解决方案，集数据集成、开发、运维、治理、资产管理能力于一身的大数据研发治理套件。在平台中，一个核心的功能为任务的调度，会根据任务设置的调度频率（月级，日级，小时级等）运行任务，从而生成对应的实例。

在数仓研发中，不同的表之间会存在依赖关系，而产生表数据的任务实例，也会因此存在依赖关系。只有在上游实例运行成功、下游实例到达设定的运行时间且资源充足的情况下，下游实例才会开始执行。所以，在日常的任务运维中，常常需要分析实例上下游的运行情况，根据具体的情况对实例进行置成功、重跑等操作。

而如何清晰地展示实例之间的关系，帮助用户快速地分析整个链路的运行情况，并完成问题定位和运维操作，则是实例 DAG 需要解决的问题。下面对比下优化前后的效果。

优化前：

可以看到在复杂链路中，将所有节点的关系全部展示出来，导致连线混乱，需要通过不停的拖拽、缩放，才能找到没有执行的上游节点。

优化后：

通过采用了将节点聚合的形式，简洁地展示上下游关系。同时，采用了将实例状态进行分类的形式，提供快捷操作的按钮，让用户可以只关注特定状态的实例，减少了无用信息对用户运维操作的干扰。下面将详细介绍优化的整体过程。

概念

任务：在 DataLeap 数据研发平台中，对数据执行一系列操作的定义。
实例：通过任务配置的执行频率（月级、天级等）而创建的一个任务的快照。
DAG：全称为 Directed Acyclic Graph，指有向无环图，具备严密的拓扑性质，有很强的流程表达能力。
DAG 布局：指根据有向无环图中边的方向，自动计算节点层级和位置的布局算法。

业务场景

以其中一个场景为例：

对于任务 test_3 在 2022-09-29 的实例进行分析可知。当前实例没有运行，是由于上游任务 test_2 在 2022-09-29 的实例运行失败导致的，那么此时可联系上游实例对应的任务的负责人，对实例进行处理（包括但不限于重跑，置成功等操作）。

问题

在当前的实例 DAG 图中，用户在实际使用中会碰到如下问题：

复杂的实例 DAG 图无法渲染。

在一些业务方向中，会出现 DAG 图中有几千节点。由于数据处理的复杂和采用了 svg 的渲染方案，常常会导致前端浏览器的崩溃。
同层级节点过多，操作困难。

以下图为例，在分析上游实例中，是哪个实例没有运行，导致当前实例没有执行时，需要通过连续拖拽，才能定位到关注的上游实例。
查看节点依赖时，只能不断展开，在对不同的上游依赖进行展开时，会导致图展示混乱。

需求分析

在通过用户调研及使用过程中发现，使用 DAG 进行分析时主要有以下场景：

当前实例已经到达指定运行时间，但是没有运行。

在这种情况下，用户关注的是上游没有运行的实例 / 运行失败的实例，联系上游实例的责任人进行问题定位。
当实例已经运行成功，但是完成时间比正常情况下有延迟。

在这种情况下，用户关注的是上游实例中，最晚完成的实例。从而判断是否对链路进行治理优化。
当实例运行失败，导致下游没有运行。

在这种情况下，用户关注的是依赖当前实例的所有下游实例，同时需要对下游实例进行聚合筛选，比如任务的优先级（代表任务的核心程度），以通知下游实例进行重跑等操作。

结合上面存在的问题可得到，主要原因是由于在复杂链路情况下，上述需求比较难满足。而在旧版的 DAG 中，针对简单链路和复杂链路的处理是一致的，为此，我们需要设计解决复杂链路场景下的方案。

功能设计

针对上面存在的问题以及对需求的分析，我们可以进行如下的功能实现与设计：

渲染方案替换

将 svg 的渲染方案替换成 canvas 渲染，通过减少页面中 DOM 的数量，提高前端渲染性能。

不同场景的功能设计

通过上面的需求分析，我们设计了不同的功能模式以满足不同的需求。

模式名称	功能
通用模式	分析上游阻塞下游运行的原因、查看上游最晚完成的实例
统计模式	对依赖当前实例的所有下游进行分组查看
链路模式	分析两个实例之间的链路关系

通用模式

在通用模式中，用户关注的是节点上下游的关系，在复杂链路中快速找到阻塞节点，同时关注阻塞节点的信息。

针对复杂链路，我们设计了多种优化形式：

首先，在同一层的节点超过一定的数量（可自定义）后，所有节点将聚合在一起，我们称之为聚合节点。这种优化下，可以解决上面提到的由于同一层级节点过多，查找特定状态节点不便的问题。也支持点击聚合详情，通过列表的形式，查看所有被聚合的节点。并支持筛选，快速查找到关注的节点并通过展开，恢复与当前节点的依赖关系。