终于理解 MySQL 索引要用 B+tree ,而且还这么快

mysql教程栏目介绍理解索引的B+tree。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

免费推荐:mysql教程(视频)

前言

当你现在遇到了一条慢 SQL 需要进行优化时,你第一时间能想到的优化手段是什么?

大部分人第一反应可能都是添加索引,在大多数情况下面,索引能够将一条 SQL 语句的查询效率提高几个数量级

索引的本质:用于快速查找记录的一种数据结构

索引的常用数据结构

二叉树红黑树Hash 表B-tree (B树,并不叫什么B减树)B+tree

数据结构图形化网址:https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

索引查询

大家知道 select * from t where col = 88 这么一条 SQL 语句如果不走索引进行查找的话,正常地查就是全表扫描:从表的第一行记录开始逐行找,把每一行的 col 字段的值和 88 进行对比,这明显效率是很低的。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

而如果走索引的话,查询的流程就完全不一样了(假设现在用一棵平衡二叉树数据结构存储我们的索引列)

此时该二叉树的存储结构(Key – Value):Key 就是索引字段的数据,Value 就是索引所在行的磁盘文件地址。

当最后找到了 88 的时候,就可以把它的 Value 对应的磁盘文件地址拿出来,然后就直接去磁盘上去找这一行的数据,这时候的速度就会比全表扫描要快很多。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

实际上 MySQL 底层并没有用二叉树来存储索引数据,是用的 B+tree(B+树)

为什么不采用二叉树

假设此时用普通二叉树记录 id 索引列,我们在每插入一行记录的同时还要维护二叉树索引字段。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

此时当我要找 id = 7 的那条数据时,它的查找过程如下:

终于理解 MySQL 索引要用 B+tree ,而且还这么快

此时找 id = 7 这一行记录时找了 7 次,和我们全表扫描也没什么很大区别。显而易见,二叉树对于这种依次递增的数据列其实是不适合作为索引的数据结构。

为什么不采用 Hash 表

Hash 表:一个快速搜索的数据结构,搜索的时间复杂度 O(1)Hash 函数:将一个任意类型的 key,可以转换成一个 int 类型的下标

假设此时用 Hash 表记录 id 索引列,我们在每插入一行记录的同时还要维护 Hash 表索引字段。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

这时候开始查找 id = 7 的树节点仅找了 1 次,效率非常高了。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

MySQL 的索引依然不采用能够精准定位的Hash 表。因为它不适用范围查询

为什么不采用红黑树

红黑树是一种特化的 AVL树(平衡二叉树),都是在进行插入和删除操作时通过特定操作保持二叉查找树的平衡;

若一棵二叉查找树是红黑树,则它的任一子树必为红黑树。

假设此时用红黑树记录 id 索引列,我们在每插入一行记录的同时还要维护红黑树索引字段。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

插入过程中会发现它与普通二叉树不同的是当一棵树的左右子树高度差 > 1 时,它会进行自旋操作,保持树的平衡。

这时候开始查找 id = 7 的树节点只找了 3 次,比所谓的普通二叉树还是要更快的。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

MySQL 的索引依然不采用能够精确定位和范围查询都优秀的红黑树

因为当 MySQL 数据量很大的时候,索引的体积也会很大,可能内存放不下,所以需要从磁盘上进行相关读写,如果树的层级太高,则读写磁盘的次数(I/O交互)就会越多,性能就会越差。

B-tree

红黑树目前的唯一不足点就是树的高度不可控,所以现在我们的切入点就是树的高度

目前一个节点是只分配了一个存储 1 个元素,如果要控制高度,我们就可以把一个节点分配的空间更大一点,让它横向存储多个元素,这个时候高度就可控了。这么个改造过程,就变成了 B-tree

终于理解 MySQL 索引要用 B+tree ,而且还这么快

B-tree 是一颗绝对平衡的多路树。它的结构中还有两个概念

度(Degree):一个节点拥有的子节点(子树)的数量。(有的地方是以来说明 B-tree 的,这里解释一下)

阶(order):一个节点的子节点的最大个数。(通常用 m 表示)

关键字:数据索引。

一棵 m 阶 B-tree 是一棵平衡的 m 路搜索树。它可能是空树,或者满足以下特点:

除根节点和叶子节点外,其它每个节点至少有 ⌈m2⌉lceil dfrac{m}{2}rceil⌈2m⌉ 个子节点;

⌈m2⌉lceil dfrac{m}{2}rceil⌈2m⌉ 为 m / 2 然后向上取整

每个非根节点所包含的关键字个数 j 满足:⌈m2⌉lceil dfrac{m}{2}rceil⌈2m⌉ – 1 ≤ j ≤ m – 1;

节点的关键字从左到右递增排列,有 k 个关键字的非叶子节点正好有 (k + 1) 个子节点;

所有的叶子结点都位于同一层。

名字取义(题外话,放松一下)

以下摘自维基百科

鲁道夫·拜尔(Rudolf Bayer)和 艾华·M·麦克雷(Ed M. McCreight)于1972年在波音研究实验室(Boeing Research Labs)工作时发明了 B-tree,但是他们没有解释 B 代表什么意义(如果有的话)。

道格拉斯·科默尔(Douglas Comer)解释说:两位作者从来都没解释过 B-tree 的原始意义。我们可能觉得 balanced, broad 或 bushy 可能适合。其他人建议字母 B 代表 Boeing。源自于他的赞助,不过,看起来把 B-tree 当作 Bayer 树更合适些。

高德纳(Donald Knuth)在他1980年5月发表的题为 “CS144C classroom lecture about disk storage and B-trees” 的论文中推测了 B-tree 的名字取义,提出 B 可能意味 Boeing 或者 Bayer 的名字。

查找

B-tree 的查找其实和二叉树很相似:

二叉树是每个节点上有一个关键字和两个分支,B-tree 上每个节点有 k 个关键字和 (k + 1) 个分支。

二叉树的查找只考虑向左还是向右走,而 B-tree 中需要由多个分支决定。

B-tree 的查找分两步:

首先查找节点,由于 B-tree 通常是在磁盘上存储的所以这步需要进行磁盘IO操作;查找关键字,当找到某个节点后将该节点读入内存中然后通过顺序或者折半查找来查找关键字。若没有找到关键字,则需要判断大小来找到合适的分支继续查找。

操作流程

现在需要查找元素:88

第一次:磁盘IO

终于理解 MySQL 索引要用 B+tree ,而且还这么快

第二次:磁盘IO

终于理解 MySQL 索引要用 B+tree ,而且还这么快

第三次:磁盘IO

然后这有一次内存比对,分别跟 70 与 88 比对,最后找到 88。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

从查找过程中发现,B-tree 比对次数和磁盘IO的次数其实和二叉树相差不了多少,这么看来并没有什么优势。

但是仔细一看会发现,比对是在内存中完成中,不涉及到磁盘IO,耗时可以忽略不计。

另外 B-tree 中一个节点中可以存放很多的关键字(个数由阶决定),相同数量的关键字B-tree 中生成的节点要远远少于二叉树中的节点,相差的节点数量就等同于磁盘IO的次数。这样到达一定数量后,性能的差异就显现出来了。

插入

B-tree 要进行插入关键字时,都是直接找到叶子节点进行操作。

根据要插入的关键字查找到待插入的叶子节点;因为一个节点的子节点的最大个数(阶)为 m,所以需要判断当前节点关键字的个数是否小于 (m – 1)。是:直接插入否:发生节点分裂,以节点的中间的关键字将该节点分为左右两部分,中间的关键字放到父节点中即可。

操作流程

比如我们现在需要在 Max Degree(阶)为 3 的 B-tree 插入元素:72

查找待插入的叶子节点

终于理解 MySQL 索引要用 B+tree ,而且还这么快

节点分裂:本来应该和 [70,88] 在同一个磁盘块上,但是当一个节点有 3 个关键字的时候,它就有可能有 4 个子节点,就超过了我们所定义限制的最大度数 3,所以此时必须进行分裂:以中间关键字为界将节点一分为二,产生一个新节点,并把中间关键字上移到父节点中。

终于理解 MySQL 索引要用 B+tree ,而且还这么快

Tip : 当中间关键字有两个时,通常将左关键字进行上移分裂。

删除

删除操作就会比查找和插入要麻烦一些,因为要被删除的关键字可能在叶子节点上,也可能不在,而且删除后还可能导致 B-tree 的不平衡,又要进行合并、旋转等操作去保持整棵树的平衡。

随便拿棵树(5 阶)举例子

以上就是终于理解 MySQL 索引要用 B+tree ,而且还这么快的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/190862.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月1日 13:07:09
下一篇 2025年11月1日 13:07:59

相关推荐

  • PHP表单处理:数据验证与过滤

    防止sql注入攻击需使用预处理语句,如pdo参数化查询,将sql代码与数据分离;有效验证和过滤用户输入应根据数据类型采用对应方法,如字符串用htmlspecialchars()、trim(),整数用filter_var(filter_validate_int),email用filter_var(fi…

    2025年12月10日 好文分享
    000
  • PHP框架选择:Laravel入门教程

    laravel是值得选择的php框架,它优雅强大且社区支持庞大,适合初学者快速上手。1. 安装需满足php>=8.1和composer环境,通过命令composer create-project创建项目并配置数据库连接;2. laravel基于mvc架构,包含路由、控制器、模型、视图四个核心概…

    2025年12月10日 好文分享
    000
  • PHP微框架:Slim快速上手指南

    slim框架上手的关键在于理解路由机制和中间件概念,具体步骤如下:1. 安装slim及相关依赖;2. 创建基本应用并定义路由;3. 使用php内置服务器运行应用;4. 通过定义不同http方法的路由处理请求;5. 利用中间件执行预处理或后处理任务;6. 处理post请求并解析表单数据;7. 集成数据…

    2025年12月10日 好文分享
    000
  • PHP中的微服务:如何构建分布式应用

    php构建微服务的核心在于拆分单体应用为自治服务单元,以提升灵活性、可伸缩性与容错性,但需应对服务发现、通信、监控等复杂性。1. 服务拆分应基于业务领域(如用户管理、订单处理)并避免“上帝服务”;2. 框架选择推荐swoole(高性能)、roadrunner(企业级)、hyperf(协程支持);3.…

    2025年12月10日 好文分享
    000
  • PHP怎么实现数据自动聚合统计 数据聚合统计方法详解

    数据自动聚合统计可通过多种方法实现,核心方法包括1. 基于sql的聚合查询:使用count、sum等函数结合group by对数据库数据进行高效汇总;2. php内存聚合:适用于小数据量或复杂逻辑,在php中遍历数组进行统计计算;3. 框架集合类:如laravel提供groupby、sum等链式操作…

    2025年12月10日 好文分享
    000
  • PHP怎样处理异常错误 PHP异常处理的5个最佳实践

    php处理异常错误的核心在于通过try…catch、throw、自定义异常类、全局异常处理器、finally块及环境策略实现优雅错误处理。1. 使用try…catch捕获并处理异常,防止程序崩溃;2. 通过throw抛出异常,控制错误流程;3. 自定义异常类继承excepti…

    2025年12月10日 好文分享
    000
  • PHP怎么实现数据自动转换 数据格式自动转换技巧分享

    php实现数据自动转换需理解类型系统并使用合适函数避免隐式转换风险,1.使用intval()、floatval()等函数显式转换;2.利用json_encode()与json_decode()处理复杂结构;3.通过(object)强制转换或循环赋值将数组转为对象;4.数据库读取时结合cast()或p…

    2025年12月10日 好文分享
    000
  • PHP如何实现数据库读写分离 数据库读写分离配置方法详解

    php实现数据库读写分离的核心在于将写操作(insert、update、delete)指向主库,读操作(select)指向从库,以降低主库压力并提升性能。1. 首先配置主从复制的数据库环境;2. 在php中设置多个数据库连接,分别指向主库和一个或多个从库;3. 实现路由策略,根据sql语句类型选择对…

    2025年12月10日 好文分享
    000
  • PHP性能分析:XHProf使用教程

    xhprof输出目录设置需考虑安全性、权限、磁盘空间和持久性,通常推荐使用/tmp/xhprof作为临时起点,但应定期清理;若需长期存储,可选/var/xhprof。1. 不要将输出目录置于web可访问路径下以保证安全;2. 确保php进程有写入权限;3. 选择有足够空间的目录,防止磁盘占满;4. …

    2025年12月10日 好文分享
    000
  • PHP怎么实现数据自动归档 数据自动归档方法优化存储空间

    数据自动归档的实现方法包括1.确定归档策略,如基于时间、状态或数据量;2.创建与原表结构相同的归档表并设置必要索引;3.编写%ignore_a_1%连接数据库,筛选符合条件的数据插入归档表并删除原表数据;4.设置定时任务定期执行脚本;5.加入错误处理和日志记录机制确保执行可靠性;6.归档后通过索引优…

    2025年12月10日 好文分享
    100
  • PHP怎么实现数据关联映射 数据关联处理最佳实践

    在php中实现数据关联映射的方法包括一对一、一对多、多对多的数据库查询处理,并通过join、子查询或orm框架解决n+1查询问题,同时可结合代码逻辑、etl工具或graphql处理不同数据源的关联。1.一对一关联可通过共享id两次查询后合并结果;2.一对多关联则先查主表再查从表,结果嵌套至主表字段;…

    2025年12月10日 好文分享
    000
  • PHP怎样防止SQL注入 PHP防SQL注入的5个关键措施

    防止sql注入的核心方法是使用预处理语句和参数化查询,结合输入验证、输出编码、最小权限原则等措施。1. 使用预处理语句(如pdo或mysqli)将sql结构与数据分离,防止恶意数据被当作sql执行;2. 对所有用户输入进行严格验证,确保其格式、类型和长度符合预期,例如使用intval()或filte…

    2025年12月10日 好文分享
    000
  • PHP中的索引优化:如何提高数据库查询性能

    索引是提升数据库查询速度的关键。它像书的目录一样,帮助数据库快速定位数据,避免全表扫描。常见类型包括主键索引、唯一索引、普通索引和复合索引。选择合适字段建立索引应优先考虑频繁查询条件、连接字段和排序分组字段;不适合加索引的情况包括重复率高、很少查询或小数据量表的字段。使用复合索引时需遵循最左匹配原则…

    2025年12月10日
    000
  • PHP中的身份验证:如何在PHP中实现用户身份验证

    用户身份验证在php开发中至关重要,其核心流程分为四步:用户提交信息、系统查询数据库、密码比对、创建session;密码必须用password_hash()加密存储,并用password_verify()验证;使用session维护登录状态时应设置$_session标识,并在登出时清除;安全方面需防…

    2025年12月10日
    000
  • PHP中的安全防护:如何在PHP中防止常见安全漏洞

    要保障php应用安全,需重点防范sql注入、xss攻击、csrf攻击及文件上传风险。1. 防止sql注入:使用pdo或mysqli扩展的预处理语句,通过参数绑定方式传入用户输入,避免拼接sql字符串;2. 过滤和转义输出:使用htmlspecialchars()函数防止xss攻击,针对不同上下文采用…

    2025年12月10日
    000
  • CentOS 8编译安装PHP8.0全流程解析

    在centos 8上编译安装php8.0需要以下步骤:1.安装必要的工具和依赖库;2.下载并解压php8.0源码;3.配置编译选项;4.编译和安装。通过这些步骤,你可以在centos 8上成功编译安装php8.0,并根据需求定制编译选项以优化性能。 引言 在当今的Web开发世界中,PHP仍然是一个不…

    2025年12月10日
    000
  • PHP中的Docker部署:如何使用容器化运行PHP应用

    部署php应用时使用docker能简化环境配置并提升一致性。1.安装docker及docker compose并确认版本;2.选择合适的php基础镜像如php:8.2-fpm或php:8.2-apache,或基于alpine的轻量镜像;3.编写dockerfile定制环境,包括安装扩展、引入comp…

    2025年12月10日
    000
  • PHP中的服务监控:如何监控PHP应用的运行状态

    要对php应用进行有效监控,首先应建立健康检查接口以确认服务可用性,其次关注性能指标如执行时间和资源消耗,同时监控错误日志以捕捉致命错误和警告,并对第三方依赖进行健康检查。1. 建议创建轻量的健康检查接口,返回状态码或json结构,并通过外部工具定期访问,触发异常报警;2. 通过记录请求耗时和内存使…

    2025年12月10日
    000
  • PHP中的数据库连接:如何使用PHP连接和操作MySQL数据库

    php开发中连接mysql数据库需使用mysqli或pdo扩展,步骤为:1.通过mysqli创建连接并检测错误;2.执行sql查询或操作并处理结果;3.使用预处理语句防止sql注入;4.操作完成后关闭连接释放资源。此外应将配置信息独立管理、避免暴露数据库错误、验证用户输入以确保安全性。 在PHP开发…

    2025年12月10日
    000
  • PHP中的PDO扩展:如何安全地使用PDO操作数据库

    使用pdo安全操作数据库需遵循四个步骤:一、连接数据库时关闭错误提示,使用环境变量存储敏感信息,并设置字符集为utf8mb4;二、通过预处理语句防止sql注入,使用绑定参数而非拼接字符串;三、合理处理查询结果并使用事务确保数据一致性,异常时回滚事务;四、避免拼接sql、验证动态表名字段名合法性,统一…

    2025年12月10日
    000

发表回复

登录后才能评论
关注微信