ClickHouse高性能技术解析-编程实验室

一、底层存储与列式存储

二、向量化查询执行与并行处理

三、算法优化与针对性设计

四、分布式架构

五、其他关键特性

总结：ClickHouse 高性能的本质

ClickHouse 的高性能源于其为大规模数据分析而设计的架构理念和一系列针对性优化。它不是一个通用的 OLTP 数据库，而是一个高度专业化的OLAP（联机分析处理）数据库。其核心设计哲学是：用一切可能的优化手段，在数据扫描和聚合操作上做到极致。

以下是其高性能的主要技术原因解析，分为几个层面：

这是最根本的原因。

列式存储：
- 与行式存储（如 MySQL）将一整行的数据连续存储不同，ClickHouse 将每一列的数据单独存储在一个物理文件中。
- 优势：
  - 高压缩比：同一列的数据类型相同，重复项多，压缩效率极高（通常可达 10:1 以上）。减少 I/O 和存储成本。
  - 仅读取所需列：分析查询通常只涉及少数列。列式存储可以只读取这几列的数据，避免了读取整行带来的无用 I/O。
  - CPU 缓存友好：连续读取同一列的数据，能更好地利用 CPU 缓存，提高向量化执行效率。
数据分区与索引：
- 分区（Partition）：按照日期（最常见）或其他键将表数据划分为独立的子目录。查询时可以有效跳过不相关的分区（分区裁剪）。
- 主键索引（Primary Index）：采用稀疏索引。不是每行都建索引，而是每隔一定数据量（如 8192 行，一个index_granularity索引粒度）记录一个索引标记。
  - 优点：索引体积非常小，可以常驻内存。
  - 查询时，先通过索引快速定位到可能包含目标数据的数据块，再在块内进行扫描。这非常适用于范围查询。
- 跳数索引（Data Skipping Indexes）：如minmax,set,bloom_filter等。在主键索引之外，为其他列提供额外的元数据，用于在扫描时快速跳过不满足条件的大块数据。

向量化执行引擎：
- ClickHouse 的查询执行器不是逐行处理数据，而是将数据组织成列式批处理块（Column Blocks），并对整个数据块进行操作。
- 这充分利用了现代 CPU 的SIMD（单指令多数据流）指令集（如 SSE、AVX），一条指令可以同时对多个数据执行相同的操作，极大提高了 CPU 利用率和计算吞吐量。
多级并行处理：
- 节点级别：在集群环境下，查询可以跨多个分片并行执行。
- 核心级别：单个查询会利用服务器所有 CPU 核心进行并行处理。
- 数据级别：即使对同一份数据，多个处理阶段（如数据过滤、聚合）也可以流水线并行。
- 这种“无所不用其极”的并行化，使得硬件资源能被完全压榨。

为聚合查询优化：
- ClickHouse 内置了大量针对统计分析的、高度优化的聚合函数和聚合组合子（如-If,-State,-Merge）。
- 对于DISTINCT,ORDER BY ... LIMIT N等操作，使用了高效的内存算法。
近似查询处理：
- 提供了一系列“牺牲精确度换取速度”的工具，这在海量数据场景下非常实用。
- 例如：uniq,count(distinct)使用 HyperLogLog 算法进行近似去重计数，速度极快且内存消耗恒定。
- 例如：any,quantile,median等都有对应的近似计算函数。
自定义表引擎：
- MergeTree家族：核心引擎，支持数据分区、复制、稀疏索引等。
- Distributed引擎：本身不存储数据，而是作为分布式查询的代理，将查询路由到集群中的各个分片，并合并结果。
- Memory、Log、TinyLog等：用于特殊场景，如临时数据、小表。
- 这种插件化设计使其能灵活适应不同场景。

Shared-Nothing 架构：集群中的每个节点都是独立的，拥有自己的 CPU、内存和存储。扩展性强，无单点瓶颈。
数据分片与复制：
- 分片（Sharding）：将数据水平切分到不同节点，实现分布式存储和计算。
- 复制（Replication）：基于 Zookeeper 或 ClickHouse Keeper，在多个副本间同步数据，保障高可用。
- 用户通过Distributed表引擎进行查询，其复杂性对应用透明。

物化视图与投影（Projection）：
- 可以预先计算并存储聚合结果，查询时直接读取，极大加速重复的聚合查询。
数据预排序：
- MergeTree表的数据会按照主键顺序在磁盘上排序存储。这对于范围查询和等值查询效率提升巨大。
不支持事务（OLAP优化）：
- 摒弃了 OLTP 数据库沉重的 ACID 事务（尤其是多行写入事务）开销，使得写入路径极其简单高效，专注于批量追加写入。
LSM树-like的合并机制：
- 数据先高速写入内存缓冲区，再顺序刷写到磁盘形成小数据片段。后台线程会定期合并这些片段，优化存储结构和排序。这种设计使得写入吞吐量非常高。