MySQL 的 join 功能弱爆了？

程序猿 • 2025年11月1日 13:27:24 • 用户投稿 • 阅读 0

今天mysql教程栏目介绍join功能。

关于MySQL 的 join，大家一定了解过很多它的“轶事趣闻”，比如两表 join 要小表驱动大表，阿里开发者规范禁止三张表以上的 join 操作，MySQL 的 join 功能弱爆了等等。这些规范或者言论亦真亦假，时对时错，需要大家自己对 join 有深入的了解后才能清楚地理解。

下面，我们就来全面的了解一下 MySQL 的 join 操作。

正文

在日常数据库查询时，我们经常要对多表进行连表操作来一次性获得多个表合并后的数据，这是就要使用到数据库的 join 语法。join 是在数据领域中十分常见的将两个数据集进行合并的操作，如果大家了解的多的话，会发现 MySQL，Oracle，PostgreSQL 和 Spark 都支持该操作。本篇文章的主角是 MySQL，下文没有特别说明的话，就是以 MySQL 的 join 为主语。而 Oracle ，PostgreSQL 和 Spark 则可以算做将其吊打的大boss，其对 join 的算法优化和实现方式都要优于 MySQL。

MySQL 的 join 有诸多规则，可能稍有不慎，可能一个不好的 join 语句不仅会导致对某一张表的全表查询，还有可能会影响数据库的缓存，导致大部分热点数据都被替换出去，拖累整个数据库性能。

所以，业界针对 MySQL 的 join 总结了很多规范或者原则，比如说小表驱动大表和禁止三张表以上的 join 操作。下面我们会依次介绍 MySQL join 的算法，和 Oracle 和 Spark 的 join 实现对比，并在其中穿插解答为什么会形成上述的规范或者原则。

对于 join 操作的实现，大概有 Nested Loop Join (循环嵌套连接)，Hash Join(散列连接) 和 Sort Merge Join(排序归并连接) 三种较为常见的算法，它们各有优缺点和适用条件，接下来我们会依次来介绍。

MySQL 中的 Nested Loop Join 实现

Nested Loop Join 是扫描驱动表，每读出一条记录，就根据 join 的关联字段上的索引去被驱动表中查询对应数据。它适用于被连接的数据子集较小的场景，它也是 MySQL join 的唯一算法实现，关于它的细节我们接下来会详细讲解。

MySQL 中有两个 Nested Loop Join 算法的变种，分别是 Index Nested-Loop Join 和 Block Nested-Loop Join。

Index Nested-Loop Join 算法

下面，我们先来初始化一下相关的表结构和数据

CREATE TABLE `t1` (  `id` int(11) NOT NULL,  `a` int(11) DEFAULT NULL,  `b` int(11) DEFAULT NULL,  PRIMARY KEY (`id`),  KEY `a` (`a`)) ENGINE=InnoDB;delimiter ;;# 定义存储过程来初始化t1create procedure init_data()begin  declare i int;  set i=1;  while(i<=10000)do    insert into t1 values(i, i, i);    set i=i+1;  end while;end;;delimiter ;# 调用存储过来来初始化t1call init_data();# 创建并初始化t2create table t2 like t1;insert into t2 (select * from t1 where id<=500)复制代码

有上述命令可知，这两个表都有一个主键索引 id 和一个索引 a，字段 b 上无索引。存储过程 init_data 往表 t1 里插入了 10000 行数据，在表 t2 里插入的是 500 行数据。

为了避免 MySQL 优化器会自行选择表作为驱动表，影响分析 SQL 语句的执行过程，我们直接使用 straight_join 来让 MySQL 使用固定的连接表顺序进行查询，如下语句中，t1是驱动表，t2是被驱动表。

select * from t2 straight_join t1 on (t2.a=t1.a);复制代码

使用我们之前文章介绍的 explain 命令查看一下该语句的执行计划。

从上图可以看到，t1 表上的 a 字段是由索引的，join 过程中使用了该索引，因此该 SQL 语句的执行流程如下：

从 t2 表中读取一行数据 L1；使用L1 的 a 字段，去 t1 表中作为条件进行查询；取出 t1 中满足条件的行，跟 L1组成相应的行，成为结果集的一部分；重复执行，直到扫描完 t2 表。

这个流程我们就称之为 Index Nested-Loop Join，简称 NLJ，它对应的流程图如下所示。

需要注意的是，在第二步中，根据 a 字段去表t1中查询时，使用了索引，所以每次扫描只会扫描一行(从explain结果得出，根据不同的案例场景而变化)。

假设驱动表的行数是N，被驱动表的行数是 M。因为在这个 join 语句执行过程中，驱动表是走全表扫描，而被驱动表则使用了索引，并且驱动表中的每一行数据都要去被驱动表中进行索引查询，所以整个 join 过程的近似复杂度是 N2log2M。显然，N 对扫描行数的影响更大，因此这种情况下应该让小表来做驱动表。

当然，这一切的前提是 join 的关联字段是 a，并且 t1 表的 a 字段上有索引。

如果没有索引时，再用上图的执行流程时，每次到 t1 去匹配的时候，就要做一次全表扫描。这也导致整个过程的时间复杂度编程了 N * M，这是不可接受的。所以，当没有索引时，MySQL 使用 Block Nested-Loop Join 算法。

Block Nested-Loop Join

Block Nested-Loop Join的算法，简称 BNL，它是 MySQL 在被驱动表上无可用索引时使用的 join 算法，其具体流程如下所示：

把表 t2 的数据读取当前线程的 join_buffer 中，在本篇文章的示例 SQL 没有在 t2 上做任何条件过滤，所以就是讲 t2 整张表放入内存中；扫描表 t1，每取出一行数据，就跟 join_buffer 中的数据进行对比，满足 join 条件的，则放入结果集。

比如下面这条 SQL

select * from t2 straight_join t1 on (t2.b=t1.b);复制代码

这条语句的 explain 结果如下所示。可以看出

可以看出，这次 join 过程对 t1 和 t2 都做了一次全表扫描，并且将表 t2 中的 500 条数据全部放入内存 join_buffer 中，并且对于表 t1 中的每一行数据，都要去 join_buffer 中遍历一遍，都要做 500 次对比，所以一共要进行 500 * 10000 次内存对比操作，具体流程如下图所示。

主要注意的是，第一步中，并不是将表 t2 中的所有数据都放入 join_buffer，而是根据具体的 SQL 语句，而放入不同行的数据和不同的字段。比如下面这条 join 语句则只会将表 t2 中符合 b >= 100 的数据的 b 字段存入 join_buffer。

select t2.b,t1.b from t2 straight_join t1 on (t2.b=t1.b) where t2.b >= 100;复制代码

join_buffer 并不是无限大的，由 join_buffer_size 控制，默认值为 256K。当要存入的数据过大时，就只有分段存储了，整个执行过程就变成了：

扫描表 t2，将符合条件的数据行存入 join_buffer，因为其大小有限，存到100行时满了，则执行第二步；扫描表 t1，每取出一行数据，就跟 join_buffer 中的数据进行对比，满足 join 条件的，则放入结果集；清空 join_buffer；再次执行第一步，直到全部数据被扫描完，由于 t2 表中有 500行数据，所以一共重复了 5次

这个流程体现了该算法名称中 Block 的由来，分块去执行 join 操作。因为表 t2 的数据被分成了 5 次存入 join_buffer，导致表 t1 要被全表扫描 5次。

全部存入分5次存入

内存操作10000 * 50010000 * (100 + 100 + 100 + 100 + 100)扫描行数10000 + 50010000 * 5 + 500

如上所示，和表数据可以全部存入 join_buffer 相比，内存判断的次数没有变化，都是两张表行数的乘积，也就是 10000 * 500，但是被驱动表会被多次扫描，每多存入一次，被驱动表就要扫描一遍，影响了最终的执行效率。

基于上述两种算法，我们可以得出下面的结论，这也是网上大多数对 MySQL join 语句的规范。

被驱动表上有索引，也就是可以使用Index Nested-Loop Join 算法时，可以使用 join 操作。

无论是Index Nested-Loop Join 算法或者 Block Nested-Loop Join 都要使用小表做驱动表。

因为上述两个 join 算法的时间复杂度至少也和涉及表的行数成一阶关系，并且要花费大量的内存空间，所以阿里开发者规范所说的严格禁止三张表以上的 join 操作也是可以理解的了。

但是上述这两个算法只是 join 的算法之一，还有更加高效的 join 算法，比如 Hash Join 和 Sorted Merged join。可惜这两个算法 MySQL 的主流版本中目前都不提供，而 Oracle ，PostgreSQL 和 Spark 则都支持，这也是网上吐槽 MySQL 弱爆了的原因(MySQL 8.0 版本支持了 Hash join，但是8.0目前还不是主流版本)。

其实阿里开发者规范也是在从 Oracle 迁移到 MySQL 时，因为 MySQL 的 join 操作性能太差而定下的禁止三张表以上的 join 操作规定的。

Hash Join 算法

Hash Join 是扫描驱动表，利用 join 的关联字段在内存中建立散列表，然后扫描被驱动表，每读出一行数据，并从散列表中找到与之对应数据。它是大数据集连接操时的常用方式，适用于驱动表的数据量较小，可以放入内存的场景，它对于没有索引的大表和并行查询的场景下能够提供最好的性能。可惜它只适用于等值连接的场景，比如 on a.id = where b.a_id。

还是上述两张表 join 的语句，其执行过程如下

将驱动表 t2 中符合条件的数据取出，对其每行的 join 字段值进行 hash 操作，然后存入内存中的散列表中；遍历被驱动表 t1，每取出一行符合条件的数据，也对其 join 字段值进行 hash 操作，拿结果到内存的散列表中查找匹配，如果找到，则成为结果集的一部分。

可以看出，该算法和 Block Nested-Loop Join 有类似之处，只不过是将无序的 Join Buffer 改为了散列表 hash table，从而让数据匹配不再需要将 join buffer 中的数据全部遍历一遍，而是直接通过 hash，以接近 O(1) 的时间复杂度获得匹配的行，这极大地提高了两张表的 join 速度。

不过由于 hash 的特性，该算法只能适用于等值连接的场景，其他的连接场景均无法使用该算法。

Sorted Merge Join 算法

Sort Merge Join 则是先根据 join 的关联字段将两张表排序(如果已经排序好了，比如字段上有索引则不需要再排序)，然后在对两张表进行一次归并操作。如果两表已经被排过序，在执行排序合并连接时不需要再排序了，这时Merge Join的性能会优于Hash Join。Merge Join可适于于非等值Join（>，=，<=，但是不包含!=，也即）。

需要注意的是，如果连接的字段已经有索引，也就说已经排好序的话，可以直接进行归并操作，但是如果连接的字段没有索引的话，则它的执行过程如下图所示。

遍历表 t2，将符合条件的数据读取出来，按照连接字段 a 的值进行排序；遍历表 t1，将符合条件的数据读取出来，也按照连接字段 a 的值进行排序；将两个排序好的数据进行归并操作，得出结果集。

Sorted Merge Join 算法的主要时间消耗在于对两个表的排序操作，所以如果两个表已经按照连接字段排序过了，该算法甚至比 Hash Join 算法还要快。在一边情况下，该算法是比 Nested Loop Join 算法要快的。

下面，我们来总结一下上述三种算法的区别和优缺点。

Nested Loop Join Hash Join Sorted Merge Join

连接条件适用于任何条件只适用于等值连接（=）等值或非等值连接(>，=，<=)，‘’除外主要消耗资源CPU、磁盘I/O内存、临时空间内存、临时空间特点当有高选择性索引或进行限制性搜索时效率比较高，能够快速返回第一次的搜索结果当缺乏索引或者索引条件模糊时，Hash Join 比 Nested Loop 有效。通常比 Merge Join 快。在数据仓库环境下，如果表的纪录数多，效率高当缺乏索引或者索引条件模糊时，Sort Merge Join 比 Nested Loop 有效。当连接字段有索引或者提前排好序时，比 hash join 快，并且支持更多的连接条件缺点无索引或者表记录多时效率低建立哈希表需要大量内存，第一次的结果返回较慢所有的表都需要排序。它为最优化的吞吐量而设计，并且在结果没有全部找到前不返回数据需要索引是(没有索引效率太差)否否

对于 Join 操作的理解

讲完了 Join 相关的算法，我们这里也聊一聊对于 join 操作的业务理解。

在业务不复杂的情况下，大多数join并不是无可替代。比如订单记录里一般只有订单用户的 user_id，返回信息时需要取得用户姓名，可能的实现方案有如下几种：

一次数据库操作，使用 join 操作，订单表和用户表进行 join，连同用户名一起返回；两次数据库操作，分两次查询，第一次获得订单信息和 user_id，第二次根据 user_id 取姓名，使用代码程序进行信息合并；使用冗余用户名称或者从 ES 等非关系数据库中读取。

上述方案都能解决数据聚合的问题，而且基于程序代码来处理，比数据库 join 更容易调试和优化，比如取用户姓名不从数据库中取，而是先从缓存中查找。

当然， join 操作也不是一无是处，所以技术都有其使用场景，上边这些方案或者规则都是互联网开发团队总结出来的，适用于高并发、轻写重读、分布式、业务逻辑简单的情况，这些场景一般对数据的一致性要求都不高，甚至允许脏读。

但是，在金融银行或者财务等企业应用场景，join 操作则是不可或缺的，这些应用一般都是低并发、频繁复杂数据写入、CPU密集而非IO密集，主要业务逻辑通过数据库处理甚至包含大量存储过程、对一致性与完整性要求很高的系统。

更多相关免费学习推荐：mysql教程(视频)

以上就是MySQL 的 join 功能弱爆了？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/191768.html

join mysql

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

【两会“芯”观察】北京：2025大力推进集成电路等九大专项攻关行动

上一篇 2025年11月1日 13:27:21

悟空搜索和百度有什么区别_悟空搜索对比百度优势分析

下一篇 2025年11月1日 13:27:25

好文分享

网络进化！

Web 应用程序从静态网站到动态网页的演变是由对更具交互性、用户友好性和功能丰富的 Web 体验的需求推动的。以下是这种范式转变的概述： 1. 静态网站（1990 年代）定义：静态网站由用 HTML 编写的固定内容组成。每个页面都是预先构建并存储在服务器上，并且向每个用户传递相同的内容。技术：HT…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

CSS如何实现任意角度的扇形（代码示例）

本篇文章给大家带来的内容是关于CSS如何实现任意角度的扇形（代码示例），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。扇形制作原理，底部一个纯色原形，里面2个相同颜色的半圆，可以是白色,内部半圆按一定角度变化，就可以产生出扇形效果扇形绘制 .shanxing{ position:…

程序猿
2025年12月24日
1000
好文分享

html中怎么运行sql语句_html中运行sql语句方法【教程】

必须通过后端服务执行SQL操作。一、PHP与MySQL交互：使用PHP脚本在服务器端连接数据库，执行查询并嵌入HTML输出，避免硬编码凭证。二、Ajax调用API：前端通过JavaScript向后端API发送请求，服务端执行SQL并返回JSON数据，前端动态渲染结果。三、SQLite与JavaScr…

程序猿
2025年12月23日
2000
好文分享

html手机怎么运行_手机运行html方法【教程】

1、使用手机浏览器可直接打开本地HTML文件，只需通过文件管理器点击文件并选择浏览器打开即可预览；2、借助Spck Editor等专用编辑器应用能实现实时编辑与预览，适合开发调试；3、对于含JavaScript或需服务器支持的动态内容，应安装KSWEB类应用搭建本地服务器，再通过http://loc…

程序猿
2025年12月23日
1000
好文分享

html如何连接_连接HTML与数据库或API接口【接口】

HTML无法直接连接数据库或调用API，需借助JavaScript fetch、PHP中转、Node.js后端或Python Flask等服务端技术实现动态数据交互。如果您希望在网页中动态获取数据，HTML本身无法直接连接数据库或调用API接口，必须借助服务器端语言或JavaScript等客户端技…

程序猿
2025年12月23日
1000
好文分享

HTML如何添加批注功能_评论系统实现方案【教程】

可实现HTML文本批注功能的四种方案：一、基于HTML5自定义属性与JS的静态批注；二、遵循W3C标准的语义化批注；三、嵌入Utterances或Giscus等第三方评论系统；四、自建AJAX评论后端+前端组件。如果您希望在HTML页面中为特定文本添加可交互的批注功能，或构建一个轻量级的评论系统，…

程序猿
2025年12月23日
0000
好文分享

html怎么在本地服务器运行_本地服务器运html方法【指南】

使用本地服务器运行HTML文件需通过HTTP协议，可选Python命令启动服务、Node.js的http-server、VS Code的Live Server插件或XAMPP等工具，确保AJAX等功能正常。要在本地服务器运行HTML文件，不能直接双击打开，因为部分功能（如AJAX、API调用）需要…

程序猿
2025年12月23日
3000
好文分享

phpstudy怎么运行本地html_phpstudy运行本地html方法【教程】

确保Apache或Nginx服务已启动；2. 将HTML文件放入WWW目录；3. 浏览器访问localhost即可运行页面。在使用 PHPStudy 时，运行本地 HTML 文件非常简单。PHPStudy 是一个集成了 Apache/Nginx、PHP 和 MySQL 的集成环境工具，主要用于本地…

程序猿
2025年12月23日
1000
好文分享

HTML页面如何生成短链接_URL压缩转换方法【攻略】

可借助第三方服务、API调用、Nginx反向代理、PHP脚本或GitHub Pages五种方式将HTML页面URL转为短链接：1.用bit.ly等平台手动缩短；2.调用Bitly API批量生成；3.配置Nginx rewrite规则重定向；4.部署PHP+MySQL实现动态跳转；5.利用GitHu…

程序猿
2025年12月23日
1000
好文分享

Java JDBC中SQL INSERT语句的常见语法错误及修复指南

本文旨在解决java jdbc应用中常见的sql `insert`语句语法错误，特别是因缺少括号而导致的错误。我们将深入分析错误信息，指出问题根源，并提供正确的sql语句范例及java jdbc `preparedstatement`的使用方法。文章还将涵盖jdbc数据库操作的最佳实践、错误处理和调…

程序猿
2025年12月23日
0000
好文分享

wampserver怎么运行html程序_wampserver运行html程序方法【教程】

使用WampServer运行HTML程序需将文件放入www目录，启动Apache服务后通过http://localhost/项目路径访问，确保在本地服务器环境下正确解析运行。如果您在本地开发网页，但无法正确查看HTML文件的运行效果，可能是由于未通过本地服务器环境进行访问。WampServer 提…

程序猿
2025年12月23日
0000
好文分享

平板怎么运行html代码_平板运行html代码步骤【指南】

可在平板上通过四种方式查看HTML效果：一、用浏览器直接打开本地.html文件；二、使用JSFiddle等在线编辑器实时预览；三、安装Acode等编程应用离线编写并预览；四、通过KSWEB搭建本地服务器运行含动态内容的页面。如果您希望在平板设备上查看或测试HTML代码的效果，但不确定如何操作，则可…

程序猿
2025年12月23日
0000
好文分享

html上怎么运行php代码吗_html中运行php代码方法【教程】

要使PHP代码在HTML中执行，必须通过支持PHP的服务器环境。首先将文件保存为.php格式并部署到配置好PHP模块的服务器（如Apache）根目录，通过http://localhost访问；或修改服务器配置（如.htaccess）令.html文件解析PHP；推荐使用.php文件混合HTML与PHP…

程序猿
2025年12月23日
0000
好文分享

html怎么用sublime运行php_sublime运行html中php方法【教程】

可在Sublime Text中通过配置PHP环境变量并创建Build System运行PHP代码，或使用PHP内置服务器、XAMPP等集成环境结合浏览器预览实现解析与调试。如果您在使用Sublime Text编辑HTML或PHP文件时，希望直接运行PHP代码并查看输出结果，但发现无法像在浏览器中那…

程序猿
2025年12月23日
1000
好文分享

PHP表单提交后防止页面刷新并保留数据与错误提示的教程

本教程旨在解决php表单提交时页面刷新、用户输入数据丢失以及错误提示显示不佳的问题。核心方法是利用服务器端php的`$_post`变量，在表单提交并进行服务器端验证失败后，不进行页面重定向，而是直接在当前页面重新渲染表单，同时回填用户之前输入的数据并显示验证错误信息，从而显著提升用户体验。引言：优…

程序猿
2025年12月23日
0000
好文分享

如何通过JavaScript/jQuery获取HTML元素内容并与PHP后端交互

本教程详细阐述了如何利用JavaScript和jQuery从HTML页面中动态获取特定` `标签的文本内容，并进一步探讨了如何将这些前端捕获的数据通过AJAX技术安全地传递给PHP后端进行处理，例如执行SQL查询。文章涵盖了从前端事件触发、数据捕获到后端数据接收、处理及安全防护的全流程，旨在提供一个…

程序猿
2025年12月23日
0000
php怎么在html5中运行_php在html5中运行方法【教程】

PHP在服务器端运行，通过嵌入HTML5文件生成动态内容。1. PHP与HTML5协同工作：PHP代码嵌入.html或.php文件，由服务器解析后输出纯HTML至浏览器。2. 创建index.php文件，使用标准HTML5结构，在其中插入等PHP代码，实现动态内容展示。3. 搭建本地环境可选用XAM…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

epp4怎么运行html文件_EPP4运行html文件步骤【指南】

首先确认EPP4已安装并启动Apache服务，将HTML文件放入www目录后，通过http://localhost/路径访问即可预览页面，确保文件位置与路径正确。打开EPP4后运行HTML文件并不复杂，只需正确操作即可在浏览器中预览页面效果。EPP4（Easy PHP Pack 4）是一个集成开发…

程序猿
2025年12月23日
1000
好文分享

html怎么用浏览器运行php_浏览器运html中php文件方法【教程】

正确答案是搭建本地开发环境。需安装XAMPP等集成工具，将.php文件放入htdocs目录，通过http://localhost访问，确保服务器解析PHP并返回HTML给浏览器显示。 PHP 是服务器端语言，不能直接通过浏览器像 HTML 那样双击打开运行。你看到的“在浏览器中运行 PHP”其实是指…

程序猿
2025年12月23日
0000