数据研发基础 | 什么是流批一体-定义

时间:2024-11-17 08:02:05

1.流式处理

流式处理(Stream Processing)是指实时处理数据流的技术。这些数据流可能来源于用户点击、传感器数据、日志文件等。流式处理的特点是数据一到就被处理,能提供实时的结果和响应。常见的流式处理框架有Apache Kafka、Apache Flink、Apache Storm等。

2.批量处理

批量处理(Batch Processing)则是指在一个时间窗口内处理大量数据的技术。它通常处理存储在数据库或文件系统中的大批数据,并生成离线分析报告或结果。批量处理的特点是处理大量数据时性能优越。常见的批量处理框架有Apache Hadoop、Apache Spark等。目前我使用到的数据开发基本都是离线的,实时需要更多的技术储备和开发经验。

3.流批一体的定义

流批一体(Unified Stream and Batch Processing)是将实时数据处理(Stream)和批量数据处理(Batch)的优势结合在一个统一的框架中进行数据处理。具有高效性、灵活性、可扩展性、容错性和实时性等优点。