百度深耕边缘计算基于Apache Flink首创边缘流式计算框架

百度在边缘计算领域有了新的突破。

11月29日，备受Flink开发者和使用者关注的盛会——Flink Forward Asia 2019火热开幕，展示Flink社区的最新动态和发展计划，以及国内外一线大厂围绕Flink生态的生产实践经验。

百度智能云资深研发工程师、IoT 实时计算负责人在大会上发表了“基于Apache Flink的边缘流式计算”的主题演讲，并重点介绍了百度基于Flink自研的边缘流式计算框架Creek，其性能十分强大，可将流式作业内存消耗降低到10M以内。

这是百度在边缘设备流式计算领域的首创，标志着百度正在以更硬核的计算实力，从云端计算向边缘计算进军。

流式计算对边缘设备有着非常重要的意义：

一方面可以在靠近设备的地方对各种数据进行监控，并且在异常发生时提供低延迟的反控；

另一方面，流式计算数据聚合能力，可以在边缘端对原始数据进行清洗和汇聚，将聚合后的数据上报云端，大大减少数据传输的带宽成本。

而目前流式计算的框架，多专注于云端高性能服务器集群，提供分布式、高吞吐的计算能力；但是，其资源消耗通常比较大，使得大部分边缘设备无法负担；同时，因依赖的模块和组件比较多，作业的部署也相对比较复杂。

Creek就针对上述两个特点，进行了专门的设计。

百度深耕边缘计算基于Apache Flink首创边缘流式计算框架

在保留对现有流式计算接口兼容的情况下，将作业的内存消耗下降到10MB以内，使得绝大多数设备担负得起；

另外，部署方式上也进行了创新，将一个流式作业所有的依赖进行编译成一个可执行文件，使之对运行环境实现零依赖，下载即运行，大大提高作业部署和运行的鲁棒性。

5G、IoT等技术的发展，对计算的能力和全面性提出了更高的要求，计算正在从以云端为主的阵地蔓延到更多地方，其中一个典型的场景就是边缘计算。而与云端强大的计算集群相比，其它场景设备的计算能力非常受限。虽然Apache Flink作为新一代流式计算引擎，已经广泛应用于诸多互联网公司的云端，但是如何在资源极度受限的边缘设备上运行流式计算引擎，尚无成功案例可循。

百度智能云技术团队认为，Apache Flink不应该仅仅运行在云端，而应该运行在任何需要设备上。将云端的计算能力延伸到包括边缘设备在内的其它设备上，已经成为行业的普遍需求。

流式计算，是指对源源不断的数据流进行实时的计算，并且实时输出计算结果，方便用户对大量的数据进行实时分析。百度基于Flink自研的边缘流式计算框架Creek，属于一种相比传统流式计算，更加轻量级的流式计算。其功能与传统流式计算相似，但资源消耗得到大幅度降低，而且部署更简单，可以运行在边缘和云端。

长期以来，流式计算在边缘端的开展面临着内存压力、磁盘压力、作业管理依赖多等多重挑战，百度推出Creek以后，有效地解决了计算作业过程中的两大主要难题。

首先，边缘流式计算框架Creek能够缓解内存不足的压力。现有常见流式计算框架，通常需要消耗几百MB到几百GB的内存空间，大大挤压其他应用的运行空间，或者根本无法运行。使用边缘流式计算框架Creek，可以将流式作业内存消耗降低到10M以内，相比传统方式实现2个数量级的下降，使得计算能力受限的边缘设备也可以跑流式作业。

其次，作业以静态编译的可执行文件的方式提供，实现对运行环境零依赖。相比以前的方案，省去了JVM, master, worker等依赖的安装和部署。

例如，包括智能工业质检在内的多个场景都需要应用机器视觉模型，大量图片的识别本身需要一定消耗内存空间，百度开放边缘框架联合智能边缘BIE云端管理套件，其中Creek的运行可以帮助提高视觉模型轻松部署到本地设备上的能力，同时通过降低内存消耗提高识别响应速度，使质检过程快速而流畅。

可见，无论是在减少内存消耗上，还是形成独立可执行文件的作业形态，百度在边缘的计算能力都因Creek的应用上升到了新的高度。

与其它流式计算产品相比，百度Creek具有独特的行业领先优势。它与已有云上流式计算产品（规则引擎）有两个个主要区别：

第一，规则引擎运行在云端，Creek可以运行在任何地方，包括边缘和云端；

第二，规则引擎是针对单消息的处理，Creek可以进行单消息和基于窗口多消息的聚合分析，计算的能力是不同的。

另外，相比于行业内其他边缘计算产品，百度Creek能够提供与主流的flink兼容的sql接口，支持完整的流式计算、完善的语意验证、丰富的connectors，且下载即运行。

目前Creek已经在多个实际场景的数据计算中得到应用。

以无人车为例，对多路视频输入进行合并运算，结构化后数据送云端保存和分析，比如应用在自动驾驶出租车队Robotaxi上，能够实现实时监测全路段路况信息，同时可以远距离车辆V2V，并提高路况感知的精确度，为自动驾驶车辆保驾护航；

在工业互联网领域，就地将各种传感器采集的数据进行聚合，聚合后数据推送到云端，减少数据传输的带宽开销；

在智能楼宇方面，通过对多点位数据进行实时监控，并对异常指标进行快速的响应，提升时效性。

百度边缘流式计算框架Creek的出现，为突破计算能力的场景限制创造了条件，作为边缘计算领域首创，填补了行业在边缘设备上运行流式计算引擎的空白，也为边缘计算的未来发展提供了参考范式。在Creek的加持下，百度的计算实力得到更全面的增强，将为“云+AI”能力的输出和产业化落地提供更加坚实的算力基础。