简单聊聊MySQL中join查询

程序猿 • 2025年11月1日 02:19:48 • 用户投稿 • 阅读 0

本篇文章给大家带来了关于mysql的相关知识，其中主要介绍了关于join查询的相关问题，下面一起来看一下，希望对大家有帮助。

推荐学习：mysql视频教程

索引对 join 查询的影响

数据准备

假设有两张表 t1、t2，两张表都存在有主键索引 id 和索引字段 a，b 字段无索引，然后在 t1 表中插入 100 行数据，t2 表中插入 1000 行数据进行实验

CREATE TABLE `t2` ( `id` int NOT NULL, `a` int DEFAULT NULL, `b` int DEFAULT NULL, PRIMARY KEY (`id`), KEY `t2_a_index` (`a`)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;CREATE PROCEDURE **idata**()BEGIN  DECLARE i INT;  SET i = 1;  WHILE (i <= 1000)do    INSERT INTO t2 VALUES (i,i,i);    SET i = i +1;    END WHILE;END;CALL **idata**();CREATE TABLE t1 LIKE t2;INSERT INTO t1 (SELECT * FROM t2 WHERE id <= 100);

有索引查询过程

我们使用查询 SELECT * FROM t1 STRAIGHT_JOIN t2 ON (t1.a=t2.a)；因为 join 查询 MYSQL 优化器不一定能按照我们的意愿去执行，所以为了分析我们选择用 STRAIGHT_JOIN 来代替，从而更直观的进行观察

图 1

可以看出我们使用了 t1 作为驱动表，t2 作为被驱动表，上图的 explain 中显示本次查询用上了 t2 表的字段 a索引，所以这个语句的执行过程应该是下面这样的：

从 t1 表中读取一行数据 r

从数据 r中取出字段 a到表 t2 中进行匹配

取出 t2 表中符合条件的行，和 r组成一行作为结果集的一部分

重复执行步骤 1-3，直到表 t1 循环数据

该过程称之为 Index Nested-Loop Join，在这个流程里，驱动表 t1 进行了全表扫描，因为我们给 t1 表插入了 100 行数据，所以本次的扫描行数是 100，而进行 join 查询时，对于 t1 表的每一行都需去 t2 表中进行查找，走的是索引树搜索，因为我们构造的数据都是一一对应的，所以每次搜索只扫描一行，也就是 t2 表也是总共扫描 100 行，整个查询过程扫描的总行数是 100+100=200 行。

无索引查询过程

SELECT * FROM t1 STRAIGHT_JOIN t2 ON (t1.a = t2.b);

图 2

可以看出由于 t2 表字段 B上没有索引，所以按照上述 SQL 执行时每次从 t1 去匹配 t2 的时候都要做一次全表扫描，这样算下来扫描 t2 多大 100 次，总扫描次数就是 100*1000 = 10 万行。

当然了这个查询结果还是在我们建的这两个都是小表的情况下，如果是数量级 10 万行的表，就需要扫描 100 亿行，这就太恐怖了！

2. 了解 Block Nested-Loop Join

Block Nested-Loop Join查询过程

那么被驱动表上没有存在索引，这一切都是怎么发生的呢？

实际上当被驱动表上没有可用的索引，算法流程是这样的：

把 t1 的数据读取线程内存 join_buffer 中，因为上述我们写的是 select * from，所以相当于是把整个 t1 表放入了内存;

扫描 t2 的过程，实际上是把 t2 的每一行取出来，跟 join_buffer 中的数据去做对比，满足 join 条件的，作为结果集的一部分进行返回。

所以结合图 2中 Extra 部分说明 Using join buffer 可以发现这一丝端倪，整个过程中，对表 t1 和t2 都做了一次全表扫描，因此扫描的行数是 100+1000=1100 行，因为 join_buffer 是以无序数组的方式组织的，因此对于表 t2 中每一行，都要做 100 次判断，总共需要在内存中进行的判断次数是 100*1000=10 万次，但是因为这 10 万次是发生在内存中的所以速度上要快很多，性能也更好。

Join_buffer

根据上述已经知道了，没有索引的情况下 MySQL 是将数据读取内存进行循环判断的，那么这个内存肯定不是无限制让你使用的，这时我们就需要用到一个参数 join_buffer_size，该值默认大小 256k，如下图：

SHOW VARIABLES LIKE '%join_buffer_size%';

图 4

假如查询的数据过大一次加载不完，只能够加载部分数据（80 条），那么查询的过程就变成了下面这样

扫描表 t1，顺序读取数据行放入 join_buffer 中，直至加载完第 80 行满了

扫描表 t2，把 t2 表中的每一行取出来跟 join_buffer 中的数据做对比，将满足条件的数据作为结果集的一部分返回

清空 join_buffer

继续扫描表 t1，顺序读取剩余的数据行放入 join_buffer 中，执行步骤 2

这个流程体现了算法名称中 Block 的由来，分块 join，可以看出虽然查询过程中 t1 被分成了两次放入 join_buffer 中，导致 t2 表被扫描了 2次，但是判断等值条件的次数还是不变的，依然是（80+20）*1000=10 万次。

所以这就是有时候 join 查询很慢，有些大佬会让你把 join_buffer_size 调大的原因。

如何正确的写出 join 查询

驱动表的选择

有索引的情况下

在这个 join 语句执行过程中，驱动表是走全表扫描，而被驱动表是走树搜索。

假设被驱动表的行数是 M，每次在被驱动表查询一行数据，先要走索引 a，再搜索主键索引。每次搜索一棵树近似复杂度是以 2为底的 M的对数，记为 log2M，所以在被驱动表上查询一行数据的时间复杂度是 2*log2M。

假设驱动表的行数是 N，执行过程就要扫描驱动表 N 行，然后对于每一行，到被驱动表上匹配一次。因此整个执行过程，近似复杂度是 N + N2log2M。显然，N 对扫描行数的影响更大，因此应该让小表来做驱动表。

那没有索引的情况

上述我知道了，因为 join_buffer 因为存在限制，所以查询的过程可能存在多次加载 join_buffer，但是判断的次数都是 10 万次，这种情况下应该怎么选择？

假设，驱动表的数据行数是 N，需要分 K 段才能完成算法流程，被驱动表的数据行数是 M。这里的 K不是常数，N 越大 K就越大，因此把 K 表示为λ*N，显然λ的取值范围是 (0,1)。

扫描的行数就变成了 N+λNM，显然内存的判断次数是不受哪个表作为驱动表而影响的，而考虑到扫描行数，在 M和 N大小确定的情况下，N 小一些，整个算是的结果会更小，所以应该让小表作为驱动表

总结：真相大白了，不管是有索引还是无索引参与 join 查询的情况下都应该是使用小表作为驱动表。

什么是小表

还是以上面表 t1 和表 t2 为例子：

SELECT * FROM t1 STRAIGHT_JOIN t2 ON t1.b = t2.b WHERE t2.id <= 50;SELECT * FROM t2 STRAIGHT_JOIN t1 ON t1.b = t2.b WHERE t2.id <= 50;

上面这两条 SQL 我们加上了条件 t2.id <= 50，我们使用了字段 b，所以两条 SQL 都没有用上索引，但是第二条 SQL 可以看出 join_buffer 只需要放入前 50 行，显然查询更快，所以 t2 的前 50 行就是那个相对较小的表，也就是我们上面说所说的‘小表’。

再看另一组：

SELECT t1.b,t2.* FROM t1 STRAIGHT_JOIN t2 ON t1.b = t2.b WHERE t2.id <= 100;SELECT t1.b,t2.* FROM t2 STRAIGHT_JOIN t1 ON t1.b = t2.b WHERE t2.id <= 100;

这个例子里，表 t1 和 t2 都是只有 100 行参加 join。但是，这两条语句每次查询放入 join_buffer 中的数据是不一样的: 表 t1 只查字段 b，因此如果把 t1 放到 join_buffer 中，只需要放入字段 b 的值; 表 t2 需要查所有的字段，因此如果把表 t2 放到 join_buffer 中的话，就需要放入三个字段 id、a 和 b。

这里，我们应该选择表 t1 作为驱动表。也就是说在这个例子里，”只需要一列参与 join 的表 t1“是那个相对小的表。

结论：

在决定哪个表做驱动表的时候，应该是两个表按照各自的条件过滤，过滤完成之后，计算参与 join 的各个字段的总数据量，数据量小的那个表，就是“小表”，应该作为驱动表。

推荐学习：mysql视频教程

以上就是简单聊聊MySQL中join查询的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/170592.html

mysql

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

win11系统提示”Windows聚焦无法更新”_win11锁屏壁纸自动更换失效解决

上一篇 2025年11月1日 02:19:41

如何解决Symfony应用在FrankenPHP环境下的运行问题？使用runtime/frankenphp-symfony库可以！

下一篇 2025年11月1日 02:19:50

用户投稿

开源免费PHP工具 PHP开发效率提升利器

推荐开源免费PHP开发工具以提升效率：VS Code、Sublime Text轻量高效，PhpStorm专业强大；调试用Xdebug、Kint、Ray；依赖管理选Composer；代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer；数据库管理可用%ignore_a_1%MyA…

程序猿
2026年5月10日
0000
MySQL数据库不支持中文的解决办法

接上一篇文章，在解决了mysql+flask环境配置问题之后，往数据库存中文字符串会报1366错误，提示不正确的字符。继而发现默认的mysql采用了latin1字符集，这种编码是不支持中文的。如果想支持中文的话，需要设置一下mysql字符集。众所周知utf-8是可以的，gbk也没问题，为了可扩展…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

后缀php怎么打开_php文件打开方式与运行环境搭建指南

要打开PHP文件需根据用途选择方式：查看代码可用文本编辑器或IDE，运行则需服务器环境。推荐新手使用XAMPP、WAMP等集成环境，将文件放入htdocs目录后访问localhost；开发者可利用PHP内置服务器，命令行执行php -S localhost:8000运行；高级用户可手动配置Apach…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
php登录怎么实现_php用户登录系统完整实现

<blockquote>PHP用户登录系统的核心是安全验证与会话管理。首先创建POST提交的登录表单，避免敏感信息暴露；后端通过session_start()启动会话，使用trim()和htmlspecialchars()清理输入，防止XSS攻击；利用PDO预处理语句查询数据库，防止SQ…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

远程MySQL数据库连接指南：从本地PHP应用访问GCP实例数据库

本文详细指导如何在本地php应用中连接到google cloud platform (gcp) 虚拟机实例上的远程mysql数据库。教程涵盖了数据库连接参数的配置、使用php pdo建立连接的方法、gcp环境下的网络配置要点，以及常见的安全和故障排除建议，旨在帮助开发者顺利实现跨环境的数据库通信。 …

程序猿
2026年5月10日
0000
用户投稿

在PHP中实现MySQL数据插入时避免重复记录的策略

本文将探讨在php应用中向mysql数据库插入数据时，如何有效避免重复记录的产生。针对当主键或唯一索引字段值已存在的情况，我们将介绍使用`insert ignore`语句的策略，以确保数据完整性并防止不必要的重复插入，从而简化数据管理逻辑。引言：数据完整性与重复记录问题在数据库管理中，数据完整性…

程序猿
2026年5月10日
0000
用户投稿

php实现哪些功能

PHP是一种通用脚本语言，可用来实现广泛的功能，包括：动态Web开发：生成响应用户请求的动态 веб页面。内容管理系统（CMS）：构建允许用户管理网站内容的CMS。电子商务：开发具有购物车、订单处理和支付网关集成的电子商务网站。服务器端编程：编写命令行脚本和工具。文件操作：创建、读取、写入和删除文件…

程序猿
2026年5月10日
0000
用户投稿

PHP 动态 SQL WHERE 子句构建：避免重复 AND 的策略

本文探讨了在 php 中动态构建 sql 查询 `where` 子句时常见的“`where and`”语法错误及其解决方案。通过逐步构建条件字符串，确保第一个条件不带 `and`，后续条件正确使用 `and` 连接，从而生成符合 sql 规范的查询语句，提高代码的健壮性和可读性。动态构建 SQL …

程序猿
2026年5月10日
2000
用户投稿

PHP中基于用户角色的页面访问控制实践

本教程详细讲解如何在PHP应用程序中利用会话（Session）机制实现基于用户角色的页面访问控制。通过正确的session_start()调用、用户登录时的角色信息存储，以及在受保护页面进行严格的会话和角色类型检查，确保只有特定用户（如“manager”）才能访问指定页面，从而有效防止未经授权的访问…

程序猿
2026年5月10日
1000
用户投稿

php数据库触发器应用实例_php数据库自动化任务的处理

通过MySQL触发器与PHP结合，可在数据变更时自动记录日志、校验数据及同步状态。首先创建user_log表并定义AFTER INSERT/UPDATE/DELETE触发器，记录users表的操作信息；随后使用PHP的PDO执行增删改操作，验证日志生成；接着创建BEFORE INSERT触发器限制非…

程序猿
2026年5月10日
0000
用户投稿

php数据库数据压缩处理_php数据库存储空间优化方法

可通过启用MySQL行压缩、PHP层数据压缩、优化字段结构及分表归档策略减少存储占用。具体步骤：1. 使用InnoDB压缩表并设置KEY_BLOCK_SIZE；2. PHP中用gzcompress压缩大数据字段，存为BLOB；3. 选用更小数据类型如TINYINT，避免冗余TEXT；4. 将历史数据…

程序猿
2026年5月10日
0000
用户投稿

php数据整理怎么按日期字段分组汇总_php按日期分组统计与时间段合并技巧

可使用SQL或PHP对数据按日期分组汇总。1、通过MySQL的DATE()、YEAR()、MONTH()函数在查询时按日、月、年分组统计；2、在PHP中遍历数组，以date(‘Y-m-d’)等格式化日期作为键进行归类；3、按周可使用date(‘o-W’…

程序猿
2026年5月10日
0000
用户投稿

php数据库如何实现全文搜索 php数据库搜索引擎的构建方法

答案：在PHP项目中实现数据库全文搜索需利用MySQL的FULLTEXT索引功能，通过PDO预处理语句执行MATCH()…AGAINST()查询，结合PHP过滤用户输入以防止SQL注入；为提升体验可引入中文分词、权重排序、结果高亮等优化措施；数据量增长后可迁移至Elasticsearch…

程序猿
2026年5月10日
0000
用户投稿

php调用数据同步方案_php调用多数据库数据同步

首先明确同步需求与模式，如单向、双向、定时或实时同步；接着使用PHP通过PDO连接多数据库，基于时间戳或增量ID同步变更数据，并记录同步状态；为提高可靠性，可引入消息队列、binlog解析、中间同步层及加锁机制；最后注意网络超时、分页处理、错误重试、日志记录与测试验证，确保数据一致性与系统稳定性。 …

程序猿
2026年5月10日
0000
用户投稿

php怎么安装_在云服务器上部署PHP环境的步骤

答案：在云服务器上部署PHP环境需搭建LEMP栈（Linux+Nginx+MySQL+PHP-FPM），依次更新系统、安装Nginx、MariaDB、PHP-FPM及扩展，配置Nginx解析PHP并测试，最后通过权限控制、安全配置、防火墙和HTTPS等措施保障环境安全稳定。在云服务器上部署PHP环…

程序猿
2026年5月10日
0000
用户投稿

使用MySQL和PHP高效获取最热门数据条目：统计与排序实践

本教程详细阐述如何利用mysql的聚合函数和php的mysqli扩展，高效地从数据库中查询并排序出最常出现的数据条目。文章将通过一个具体的案例，指导读者构建正确的sql查询，并结合php进行数据处理和调试，避免常见的sql语法错误和php运行时问题，从而准确获取按频率降序排列的热门数据。在Web开…

程序猿
2026年5月10日
0000
用户投稿

SQL查询：精确判断事件过期，结合日期与时间列

本文旨在解决数据库中事件过期判断不精确的问题，特别是当事件的过期日期和时间分别存储在不同列时。我们将探讨两种主流的sql查询策略：一种是利用逻辑运算符`or`和`and`进行分情况判断，另一种是通过合并日期和时间列为单一时间戳进行直接比较。文章将详细阐述每种方法的实现方式、适用场景及相关注意事项，确…

程序猿
2026年5月10日
1000
用户投稿

HTML表单如何实现白名单功能？怎样只允许授权用户？

要实现%ignore_a_1%的白名单功能并确保只有授权用户操作，核心答案是必须依赖后端服务器进行严格的身份认证、会话管理、授权检查和数据验证，前端仅能提供用户体验层面的初步提示而不能保障安全；具体而言，首先通过用户身份认证（如用户名/密码或oauth）确认用户身份，服务器创建会话并返回标识符，后续…

程序猿
2026年5月10日
7000