SQL Server 性能优化实战（第一期）：索引——查询加速的基石-编程实验室

为什么需要索引？

想象一下：你有一本 1000 页的书，没有目录，也没有页码。你想找到“索引优化”这一节，唯一的办法就是从第 1 页开始，一页一页翻下去——直到翻到第 800 页才找到目标。

这就是全表扫描。

SQL Server 中的索引，本质上就是书的目录。它是一种B-Tree（平衡树）结构，能够以对数级别的时间复杂度定位到数据行，而不是线性扫描整个表。

索引的核心价值：

大幅减少数据读取量（从百万行缩小到几行）
避免排序和临时表
帮助查找唯一值
加速JOIN、GROUP BY、ORDER BY

二、索引的两大核心类型

2.1 聚集索引（Clustered Index）

数据行的物理排序依据：聚集索引的叶子节点就是完整的数据行。
每张表只能有一个：因为数据行只能按一种物理顺序存储。
推荐每张表都有聚集索引：没有聚集索引的表称为堆表（Heap）。

-- 创建聚集索引（通常在主键上自动创建） CREATE CLUSTERED INDEX IX_Orders_OrderDate ON Orders(OrderDate);

💡 常见问题：主键默认就是聚集索引，但这不是绝对的。你可以将主键设为非聚集索引，也可以在不做主键的列上创建聚集索引。

2.2 非聚集索引（Non-Clustered Index）

叶子节点存储的是指向数据行的指针（如果表有聚集索引，指针就是聚集索引键；如果是堆表，指针就是 RID）
每张表可以有多个（最多 999 个）
常用于频繁作为查询条件的列（WHERE、JOIN、ORDER BY）

-- 创建非聚集索引 CREATE NONCLUSTERED INDEX IX_Orders_CustomerID ON Orders(CustomerID);

2.3 核心区别对比

对比项	聚集索引	非聚集索引
每表数量	1	最多 999
叶子节点内容	完整数据行	指针（RID 或聚集键）
查找方式	直接定位	先找指针，再回表查数据
物理顺序	决定表存储顺序	不影响表存储顺序
空间占用	较大（包含所有列）	较小（仅索引列+指针）

三、索引是如何工作的？Seek vs Scan

3.1 Seek（查找）

利用 B-Tree 结构直接定位到符合条件的行
复杂度：O(log N)
对于 100 万行数据，Seek 大约只需要 20 次逻辑读取

3.2 Scan（扫描）

遍历整个索引或整个表的所有行
复杂度：O(N)
100 万行数据 = 至少 100 万次读取

3.3 一个直观的演示

-- 准备测试数据（100万行） DROP TABLE IF EXISTS Orders; CREATE TABLE Orders ( OrderID INT IDENTITY(1,1), OrderDate DATE, CustomerID INT, Amount DECIMAL(10,2) ); -- 插入100万条随机数据 WITH Numbers AS ( SELECT TOP 1000000 ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) AS n FROM sys.all_columns a CROSS JOIN sys.all_columns b ) INSERT INTO Orders (OrderDate, CustomerID, Amount) SELECT DATEADD(day, n % 3650, '2020-01-01'), (n % 10000) + 1, ROUND(RAND(CHECKSUM(NEWID())) * 10000, 2) FROM Numbers; GO -- 第一次查询：无索引，全表扫描 SET STATISTICS TIME ON; SET STATISTICS IO ON; SELECT * FROM Orders WHERE CustomerID = 12345; -- 观察输出：逻辑读取次数很大（约 3000-4000 次） -- 执行计划：Table Scan

-- 添加索引 CREATE NONCLUSTERED INDEX IX_Orders_CustomerID ON Orders(CustomerID); GO -- 再次查询 SELECT * FROM Orders WHERE CustomerID = 12345; -- 观察输出：逻辑读取次数大幅降低（约 10-20 次） -- 执行计划：Index Seek + Key Lookup

四、常见索引误区（以及正确做法）

❌ 误区 1：索引越多越好

事实：每增加一个非聚集索引，INSERT、UPDATE、DELETE操作都要同时维护该索引。索引不是免费的。

建议：定期使用 DMV 检查未使用的索引，及时删除。

❌ 误区 2：所有表都应该有聚集索引

事实：90% 的表都应该有聚集索引，但存在少数例外——比如极端插入性能要求的日志表，堆表可能更快（没有聚集索引的插入开销）。

建议：除非有明确的理由，否则为每张表创建聚集索引。

❌ 误区 3：WHERE 列建了索引就能加速

事实：以下情况索引可能被忽略：

对索引列使用函数：WHERE YEAR(OrderDate) = 2024
数据类型隐式转换：WHERE OrderID = '123'（OrderID 是 INT）
前导通配符：WHERE Name LIKE '%Smith'
低选择性列（如性别：男/女），优化器可能认为扫描更便宜

建议：定期查看执行计划，确认索引是否被实际使用。

五、快速诊断：你的索引健康吗？

5.1 找出从未使用过的索引

SELECT OBJECT_NAME(i.object_id) AS TableName, i.name AS IndexName, i.type_desc, s.user_seeks, s.user_scans, s.user_lookups, s.user_updates FROM sys.indexes i LEFT JOIN sys.dm_db_index_usage_stats s ON i.object_id = s.object_id AND i.index_id = s.index_id WHERE OBJECTPROPERTY(i.object_id, 'IsUserTable') = 1 AND (s.user_seeks + s.user_scans + s.user_lookups = 0 OR s.user_seeks IS NULL) AND i.name IS NOT NULL ORDER BY ISNULL(s.user_updates, 0) DESC;