ClickHouse

ClickHouse说明

ClickHouse是一种高性能、分布式的开源列式数据库管理系统（DBMS），专门用于在线分析处理（OLAP）工作负载。是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库，使用 C++ 语言编写。ClickHouse旨在处理大规模数据，能够快速地进行复杂的分析查询，并以秒级的速度返回结果；主要用于处理数据分析、报告生成、实时分析等工作负载，例如网站分析、日志分析、时间序列数据分析等。

ClickHouse的特点

列式存储: ClickHouse将数据按列存储，而不是按行存储，这种存储结构在分析工作负载下通常效率更高，因为它可以只检索所需的列，而不是整个行。
并行处理: ClickHouse能够利用多核CPU和多个计算节点进行并行处理，以加速查询和分析任务。
数据压缩: ClickHouse使用多种压缩算法来减小存储空间，这有助于减少磁盘使用量，并提高查询性能。
分布式架构: ClickHouse支持分布式架构，可以在多台服务器上部署，实现水平扩展，处理大规模数据集。
实时数据插入: 虽然ClickHouse主要用于分析工作负载，但它也支持实时数据插入，可以在数据分析的同时进行实时更新。

ClickHouse的缺点

不适合 OLTP（联机事务处理）：ClickHouse 是为 OLAP场景而设计的，因此在处理大量实时事务时性能可能不如专为 OLTP 设计的数据库。
数据更新和删除操作较慢：由于 ClickHouse 是列式存储数据库，对于已经存储的数据进行更新和删除操作相对较慢。这是因为列式存储的设计使得数据的更新和删除需要涉及多个列，可能需要对整列进行重新写入。
索引支持有限：虽然 ClickHouse 支持索引，但与传统的关系型数据库相比，其索引支持相对有限。例如，ClickHouse 的主键索引只能基于单个列，而不支持复合索引。
不支持复杂的事务处理：虽然 ClickHouse 支持简单的事务（如 INSERT、ALTER 等操作），但不支持复杂的事务处理，如嵌套事务、保存点、事务回滚等功能。
不适用于实时数据处理：ClickHouse 主要用于批量数据处理和大规模数据分析，对实时数据处理的支持相对有限。虽然可以通过与流处理系统集成来实现近实时分析，但不适合对实时数据进行强实时处理。
复杂性：ClickHouse 需要一定的学习成本，特别是对于那些没有大数据处理经验的用户来说，可能需要一些时间来理解其数据模型和查询语言。

缺乏成熟的生态系统：相比于 MongoDB 和 MySQL，ClickHouse 的生态系统可能相对较小，缺乏一些成熟的工具和库支持。

适用场景

实时分析：ClickHouse 可以快速地处理大规模数据集的实时分析查询。它具有优秀的性能和低延迟，使得用户能够快速地从海量数据中提取有价值的信息。
大数据仓库：对于需要存储和分析海量数据的应用，ClickHouse 是一个非常适合的选择。它可以轻松处理数十亿甚至数万亿行的数据，并支持高并发查询。
日志分析：ClickHouse 在处理日志数据和事件数据方面表现出色。它能够有效地处理大量的日志信息，并支持实时查询和分析，帮助用户快速发现问题和趋势。
实时报表和数据可视化：ClickHouse 提供了强大的 SQL 支持，可以方便地进行复杂的数据分析和报表生成。结合数据可视化工具，用户可以轻松地将分析结果可视化展示，帮助业务决策和监控。
网络安全分析：ClickHouse 在网络安全领域也有广泛的应用。它可以快速地分析大量的网络流量数据，并支持实时监控和警报，帮助用户及时发现和应对安全威胁。

数据类型

数值类型：Int8、Int16、Int32、Int64、UInt8、UInt16、UInt32、UInt64、Float32（float）、Float64（double）、Decimal
日期和时间类型：Date、DateTime、DateTime64、Nullable(Date/DateTime/DateTime64)
字符串类型：String、FixedString、Enum
数组类型：Array(T)
布尔类型：Bool
IPv4 和 IPv6 类型：IPv4、IPv6
UUID 类型（通用唯一标识符）：UUID

常用操作

1. SELECT 查询：用于从表中检索数据，支持复杂的 SQL 查询语句，包括聚合、分组、排序等操作。

SELECT * FROM table WHERE condition;

2. INSERT 插入：将数据插入到表中。

INSERT INTO table (column1, column2, ...) VALUES (value1, value2, ...);

3. INSERT 插入：将表插入到表中。

INSERT INTO [table_name] select a,b,c from [table_name_2]

4. UPDATE 更新/修改：更新表中的数据。注意：索引列不能进行更新，分布式表不能进行更新

UPDATE table SET column1 = value1, column2 = value2 WHERE condition; alter table t_order_smt update total_amount=toDecimal32(2000.00,2) where id =102;

5. DELETE 删除：按条件删除

alter table my_table delete where log_date < '2023-01-01'; DELETE FROM my_table WHERE log_date < '2023-01-01';

6. DELETE 删除：按分区删除

alter table [db.]tableName drop partition '分区字段';

7. 聚合函数：如 SUM、AVG、COUNT、MAX、MIN 等，用于对数据进行统计分析。

SELECT SUM(column) FROM table;

8. GROUP BY 分组：将数据按照指定的列进行分组。

SELECT column1, SUM(column2) FROM table GROUP BY column1;

9. JOIN 连接：连接多个表以便进行联合查询。

SELECT t1.column1, t2.column2 FROM table1 AS t1 JOIN table2 AS t2 ON t1.id = t2.id;

10. 子查询：嵌套在主查询中的查询语句。

SELECT * FROM table WHERE column IN (SELECT column FROM another_table WHERE condition)