SQL 语句优化是一个既熟悉又陌生的话题。面对千奇百怪的 SQL 语句,虽然数据库本身对 SQL 语句的优化一直在持续改进、提升,但是我们不能完全依赖数据库,应该在给到数据库之前就替它做好各种准备工作,这样才能让数据库来有精力做它自己擅长的事情。
就拿 MySQL 来讲,一条 SQL 语句从客户端发出到数据库端返回结果一般会经历几个阶段:词法解析、语法解析、语义解析、逻辑优化、物理优化、最终执行并返回结果。那么这几个阶段,我们 DBA 能参与的也就是两个阶段:逻辑优化以及少许物理优化。所以在我们 DBA 这侧,对 SQL 语句的优化简单来讲就是让我们自己写的 SQL 语句能更好的适应数据库内置的优化规则,进一步让 SQL 语句在每个处理阶段能扫描更少的记录数量、字段数量来改善查询效果。
逻辑优化可以理解为基于N多数据库内置规则的预处理,规则定义越全面,对 SQL 语句优化的就越极致。比如使用表关联代替子查询、分组聚合条件上推、在特定条件下用内连接来替换外连接、视图上推到基表等等一系列优化措施。
物理优化可以理解为数据库按照当前 SQL 语句涉及到的表统计信息、列统计信息、索引个数、索引优劣、当前运行负载、当前硬件资源等可变因素来决定如何生成最优执行路径的方法。
一般来讲,我们拿到一条“不是很优化”、“烂的”、“慢的” 等 SQL 语句(至于怎么拿到这条语句,不在本篇讨论范围),应该按照以下几个步骤来逐步分析:
一、定位该SQL 语句涉及到的表结构,确认是磁盘表还是视图,如果是磁盘表,那么该考虑以下几点:
- 这些表是否统一为InnoDB引擎(MySQL 5.7 以及以前一些老旧版本可能会有非InnoDB引擎表),如果不是,转换表引擎为InnoDB。因为MySQL从5.5 版本开始,所有针对存储层的优化都是针对InnoDB引擎的。
- 极个别表为临时表。查看临时表相关参数是否设置合理;或者说能否把临时表替换为磁盘表。
- 查询每张表的字段类型,看有无不合理的部分。
- 查询每张表的记录数,检查是否过大需要后续拆分。
- 查询每张表的统计信息,检查是否及时做了更新。
- 针对这些表结构做进一步分析,查看索引设计是否合理?大致会有以下几种结果:
- 都没有索引,有的连主键都没有。
- 都有主键或者唯一索引,但是没有二级索引。
- 有主键或者唯一索引,也有一些二级索引,并且二级索引可选择性也比较优化。
- 有主键或者唯一索引,也有一些二级索引,但是这些二级索引可选择性很差。
二、如果有些表是视图,需要考虑以下几点:
- 该视图内部的算法有两种,一种是临时表(TEMPTABLE)、另外一种是合并(MERGE )。可以针对这两种算法来分别测试视图整体性能哪个较优化。
- 该视图内部如果有很复杂的处理逻辑,想办法把这部分内容简化或者从数据库剥离转交给应用处理,避免数据库将其劣势放大。
- 该视图如果非必须,可拆解为基表与上层SQL 语句做合并处理,这样效率较之前更优化(比如视图内部多表关联与上层基表再次关联,拆分后,优化器就会有更多更优的表关联顺序)。
三、到了这一步,如果是多张表关联,此处检查表关联键:
- 表关联键为主键和外键,也即两表用来关联的字段在一张表唯一并且在另一张表被引用,这时需要补充额外的过滤条件来减少扫描记录数。
- 表关联键为非主键,也即两表用来关联的字段都不唯一, 需要优化为唯一键值关联。
- 表关联键字段编码不一致,需要人为转换字段编码并改为一致。
四、基于以上几点,表结构分析这块已经大致完毕。接下来从SQL 语句层面来分析,比如这条SQL语句能否修改为更加优化的方式。可以考虑以下两点:
- SQL语句本身很简单,没有必要做修改。 比如这条语句本身是20张表的内联查询,那它不够优化并不是因为写的不好,而是表关联个数实在太多。
- SQL语句本身很复杂,仔细分析后,可以简化这条语句的写法。 复杂SQL语句又可以分为很多类别,比如多张子表关联、多张表嵌套子查询、多个子查询合并输出、多个聚合类操作等等。每种都有不同的优化方法,后续我会一一介绍。
五、那么前面几点做完后,进一步分析优化后SQL 语句的执行计划(如果有条件模拟生产环境压力模型),一般考虑如下几点:
- 改写后的语句执行计划很优化,走最合适的索引、语句本身也改的很简洁,那么这条语句改写完成。
- 改写后的语句执行计划没有走合适的索引,可以考虑在表上建立合适的索引。如果建新索引后,这条语句执行效果很好,那么改写完成。
- 改写后的语句走了合适的索引,执行效果依然不理想,这时可能有以下几种原因:
- 这条语句走的索引在不同过滤条件下,运行效果忽好忽坏。比如日期字段,过滤条件为昨天的查询记录数为100条,过滤条件为前天的查询记录数则变为1W条。
- 这条语句走的索引较优,但是表记录数实在太大,走索引过滤的记录数也很多,需要从表结构这层做些优化。比如前面几期讲过的分区表、拆分表等方法;或者是从业务层面限制这条语句来扫描更少的记录数等等。
经过以上几个步骤,一般的语句基本上都能达到比较优化的结果。后续我将逐步介绍各种优化方法以及在MySQL里如何付诸于实践。
-- 使用表连接代替子查询
-- 子查询形式
SELECT * FROM table1 WHERE col1 = (SELECT col2 FROM table2 WHERE col3 = 'some_value')
-- 表连接形式
SELECT table1.* FROM table1 JOIN table2 ON table1.col1 = table2.col2 WHERE table2.col3 = 'some_value'
-- 分组聚合条件上推
-- 原始形式
SELECT * FROM table1 WHERE col2 IN (SELECT col2 FROM table2)
-- 优化形式
SELECT table1.* FROM table1 JOIN (SELECT col2 FROM table2 GROUP BY col2) AS sub ON table1.col2 = sub.col2
-- 在特定条件下用内连接来替换外连接
-- 外连接形式
SELECT * FROM table1 LEFT JOIN table2 ON table1.id = table2.ref_id
-- 内连接形式
SELECT * FROM table1 INNER JOIN table2 ON table1.id = table2.ref_id
-- 视图上推到基表
-- 视图定义
CREATE VIEW view_name AS SELECT * FROM table1 WHERE condition
-- 使用视图
SELECT * FROM view_name
-- 优化:直接在基表上进行查询
SELECT * FROM table1 WHERE condition
-- 使用 EXISTS 代替 IN
-- IN 子句形式
SELECT * FROM table1 WHERE col1 IN (SELECT col2 FROM table2)
-- EXISTS 形式
SELECT * FROM table1 WHERE EXISTS (SELECT 1 FROM table2 WHERE table2.col2 = table1.col1)
-- 选择性投影
-- 避免使用 SELECT *
SELECT col1, col2 FROM table1
-- 避免在 WHERE 子句中使用函数或表达式
-- 原始形式
SELECT * FROM table1 WHERE UPPER(col1) = 'SOME_VALUE'
-- 优化形式
SELECT * FROM table1 WHERE col1 = 'SOME_VALUE'
-- 使用 UNION ALL 代替 UNION
-- UNION 形式
SELECT * FROM table1 WHERE condition1
UNION
SELECT * FROM table2 WHERE condition2
-- UNION ALL 形式
SELECT * FROM table1 WHERE condition1
UNION ALL
SELECT * FROM table2 WHERE condition2
-- 索引列的使用
-- 确保 WHERE 子句使用索引列
SELECT * FROM table1 WHERE indexed_column = 'value'
-- 避免在 WHERE 子句中使用 OR(如果条件允许)
-- 原始形式
SELECT * FROM table1 WHERE col1 = 'value1' OR col2 = 'value2'
-- 优化形式(如果条件允许)
SELECT * FROM table1 WHERE col1 = 'value1'
UNION ALL
SELECT * FROM table1 WHERE col2 = 'value2'
-- 使用物化视图
-- 物化视图定义
CREATE MATERIALIZED VIEW mat_view_name AS SELECT ... FROM ...
-- 使用物化视图
SELECT * FROM mat_view_name
-- 使用合适的 JOIN 类型
-- 根据数据的实际分布和查询需求选择合适的 JOIN 类型
SELECT * FROM table1 INNER JOIN table2 ON condition