MySQL数据行溢出的深入理解

程序猿 • 2025年11月6日 10:53:17 • 用户投稿 • 阅读 1

本篇文章给大家带来的内容是关于mysql数据行溢出的深入理解，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。

一、从常见的报错说起

故事的开头我们先来看一个常见的sql报错信息：

相信对于这类报错大家一定遇到过很多次了，特别对于OMG这种已内容生产为主要工作核心的BG，在内容线的存储中，数据大一定是个绕不开的话题。这里的数据“大”，远不止存储空间占用多，其中也包括了单个（表）字段存储多、大，数据留存时间长，数据冗余多，冷热数据不明显导致的体量大，访问峰值随着热点变化明显，逻辑处理复杂导致数据存储压力放大等等。回到这个报错的问题上来，我们先来看一下这个表的结构：

看到这里，我相信大家会有不同的处理方式了，这里就不对各种处理方式的优劣做比较了，仅仅叙述使用频率较高的两种处理方式。

根据报错的指引，把两个大的varchar（22288）改成text、blob

根据业务特点，缩小varchar的存储长度,或者按照规则拆分成多个小的vachar和char

这两种的处理方式也各有优缺点，把字段改成text或者blob，不仅增大了数据存储的容量，对这个字段的索引页只能采用前缀或者全文索引了，如果业务侧存储的是json格式的数据，5.7支持json数据类型是个不错的选择，可以针对单个子类进行查询和输出。同样如果缩小和拆分的话就比较依赖业务的场景和逻辑需求了，业务使用的逻辑上需要修改，工程量也需要评估。

二、深入探索

接着我们再来深入分析下关于限制大小“65535”的一些容易混淆的概念。

1、“65535”不是单个varchar(N)中N的最大限制，而是整个表非大字段类型的字段的bytes总合。

———————————————————————————————

Every table (regardless of storage engine) has a maximum row size of 65,535 bytes. Storage engines may place additional constraints on this limit, reducing the effective maximum row size.

———————————————————————————————

2、不同的字符集对字段可存储的max会有影响，例如，UTF8字符需要3个字节存储，对于VARCHAR（255）CHARACTER SET UTF8列，会占用255×3 =765的字节。故该表不能包含超过65,535/765=85这样的列。GBK是双字节的以此类推。

3、可变长度列在评估字段大小时还要考虑存储列实际长度的字节数。例如，VARCHAR（255）CHARACTER SET UTF8列需要额外的两个字节来存储值长度信息，所以该列需要多达767个字节存储，其实最大可以存储65533字节，剩余两个字节存储长度信息。

4、BLOB、TEXT、JSON列不同于varchar、char等字段，列长度信息独立于行长存储，可以达到65535字节真实存储

5、定义NULL列会降低允许的最大列数。

InnoDB表，NULL和NOT NULL列存储大小是一样

MyISAM表，NULL列需要额外的空间记录其值是否为NULL。每个NULL需要一个额外的位（四舍五入到最接近的字节）。最大行长度计算如下：

row length = 1 + (sum of column lengths) + (number of NULL columns + delete_flag + 7)/8 + (number of variable-length columns)

静态表，delete_flag = 1，静态表通过在该行记录一个位来标识该行是否已被删除。

动态表，delete_flag = 0，该标记存储在动态行首，动态表具体可以根据

6、对于InnoDB表，NULL和NOT NULL列存储大小是一样

7、InnoDB允许单表最多1000个列

8、varchar主键只支持不超过767个字节或者768/2=384个双字节或者767/3=255个三字节的字段而GBK是双字节的，UTF8是三字节的

9、不用的引擎对索引的限制有区别

innodb每个列的长度不能大于767 bytes；所有组成索引列的长度和不能大于3072 bytes

myisam 每个列的长度不能大于1000 bytes，所有组成索引列的长度和不能大于1000 bytes

三、真正的故障

下面来说下今天遇到的业务故障，线上业出现了大量的如下报错，导致程序无法写入数据：

按照提示和正常的思路，我们先第一反应认为业务存在如下的问题：

设置的表结构中字段超过了限制

某个字段插入的数据长度超过了改字段设置的max值

接着查看了业务的库表结构，如下：

很快排除了第一个原因，因为首先业务的报错不是在建立表的时候出现的，如果是表中非大字段之和65535，在建表的时候就会出错，而业务是在写入的时候才报错的，而且通过库表结构也能发现大量的都是mediumblob类型字段，非大字段加起来远小于65535。

接着根据业务提供的具体SQL，appversion、datadata、elt_stamp、id这几个非大字段，也并没有超过限制，mediumblob类型字段最大可存储16M，业务的数据远远没有达到这个量级。按照报错的提示把 appversion、datadata、elt_stamp、id这几个非大字段均改成blob类型，还是无法解决。（根据之前的分析，必然不是问题的根源）。

冷静下来后，发现其实还有个细节被忽略掉了，业务的失败率不是100%，说明还是有成功的请求，通过对比成功和失败的sql，发现果然数据量差异的还是mediumblob类型字段。那么现在第一个想到的就是，max_allowed_packet这个参数，是不是调小了，是的单个请求超过大小被拒绝了，查了下配置的值（如下图），配置的大小1G，sql的数据长度远没有这么大，这个原因也排除了。

查到这里基本上排除了常见几个问题，接着再看一下另一个参数的限制：innodb_page_size，这个的默认值是16K，每个page两行数据，所以每行最大8k数据。

钉钉 AI 助理

钉钉AI助理汇集了钉钉AI产品能力，帮助企业迈入智能新时代。

21 查看详情

查看了下数据表Row_format是Compact，那么我们可以推断问题的原因应该就是innodb默认的approach存储格式会把每个blob字段的前864个字节存储在page里，所以blob超过一定数量的话，单行大小就会超过8k，所以就报错了。通过对比业务写成功和失败的SQL也应征了这个推论，那么现在要怎么解决这个问题？

业务拆分表，大字段进行分表存储

通过解决Row_format的存储方式解决问题

由于业务单表的存储条数并不大，而且业务逻辑不适合拆分，所以我们要在Row_format上来解决这个问题。

Barracuda文件格式下拥有两种新的行记录格式Compressed和Dynamic两种，新的两种格式对于存放BLOB的数据采用了完全的行溢出的方式，在数据页中只存放20个字节的指针，实际的数据都存放在BLOB Page中。Compressed行记录格式的另一个功能就是存储在其中的数据会以zlib的算法进行压缩。

相关的变更操作就相对简单了：

1、 修改MySQL全局变量：

SET GLOBAL innodb_file_format=’Barracuda’;

2、平滑变更原表的属性：

ROW_FORMAT=COMPRESSED

四、继续学习

通过这个案例我们可以从中提炼出两个值得深入研究一下的点：

1、关于innodb_page_size

从MySQL5.6开始，innodb_page_size可以设置Innodb数据页为8K,4K，默认为16K。这个参数在一开始初始化时就要加入my.cnf里，如果已经创建了表，再修改，启动MySQL会报错。

那么在5.6的版本之前要修改这个值，怎么办？那只能是在源码上做点文章了，然后重新rebuild一下MySQL。

UNIV_PAGE_SIZE是数据页大小，默认的是16K，该值是可以设置必须为2的次方。对于该值可以设置成4k、8k、16k、32K、64K。同时更改了UNIV_PAGE_SIZE后需要更改UNIV_PAGE_SIZE_SHIFT 该值是2的多少次方为UNIV_PAGE_SIZE，所以设置数据页分别情况如下：

接着再来说一下innodb_page_size设置成不同值的对于mysql性能上的影响，测试的表含有1亿条记录，文件大小30G。

①读写场景（50%读50%写）

16K，对CPU压力较小，平均在20%

8K，CPU压力为30%~40%，但select吞吐量要高于16K

②读场景（100%读）

16K和8K差别不明显

InnoDB Buffer Pool管理页面本身也有代价，Page数越多，那么相同大小下，管理链表就越长。因此当我们的数据行本身就比较长（大块插入），更大的页面更有利于提升速度，因为一个页面可以放入更多的行，每个IO写的大小更大，可以更少的IOPS写更多的数据。当行长超过8K的时候，如果是16K的页面，就会强制转换一些字符串类型为TEXT，把字符串主体转移到扩展页中，会导致读取列需要多一个IO，更大的页面也就支持了更大的行长，64K页面可以支持近似32K的行长而不用使用扩展页。但是如果是短小行长的随机读取和写入，则不适合使用这么大的页面，这会导致IO效率下降，大IO只能读取到小部分。

2、关于Row_format

Innodb存储引擎保存记录，是以行的形式存放的。在InnoDB 1.0.x版本之前，InnoDB 存储引擎提供了 Compact 和 Redundant 两种格式来存放行记录数据。MySQL 5.1 中的innodb_plugin 引入了新的文件格式：Barracuda，该文件格式拥有新的两种行格式：compressed和dynamic。并且把 compact 和 redundant 合称为Antelope。可以通过命令SHOW TABLE STATUS LIKE ‘table_name’；来查看当前表使用的行格式，其中 row_format 列表示当前所使用的行记录结构类型。

MySQL 5.6 版本中，默认 Compact ，msyql 5.7.9 及以后版本，默认行格式由innodb_default_row_format变量决定，默认值是DYNAMIC，也可以在 create table 的时候指定ROW_FORMAT=DYNAMIC（通过这个可动态调整表的存储格式）。如果要修改现有表的行模式为compressed或dynamic，必须先将文件格式设置成Barracuda（set global innodb_file_format=Barracuda;）。再用ALTER TABLE tablename ROW_FORMAT=COMPRESSED;去修改才能生效，否则修改无效却无提示。

①compact

如果blob列值长度 <= 768 bytes，不会发生行溢出(page overflow)，内容都在数据页(B-tree Node)；如果列值长度 > 768字节，那么前768字节依然在数据页，而剩余的则放在溢出页(off-page)，如下图：

上面讲的blob或变长大字段类型包括blob、text、varchar，其中varchar列值长度大于某数N时也会存溢出页，在latin1字符集下N值可以这样计算：innodb的块大小默认为16kb，由于innodb存储引擎表为索引组织表，树底层的叶子节点为一双向链表，因此每个页中至少应该有两行记录，这就决定了innodb在存储一行数据的时候不能够超过8k，减去其它列值所占字节数，约等于N。

②compressed或dynamic

对blob采用完全行溢出，即聚集索引记录（数据页）只保留20字节的指针，指向真实存放它的溢出段地址：

dynamic行格式，列存储是否放到off-page页，主要取决于行大小，它会把行中最长的那一列放到off-page，直到数据页能存放下两行。TEXT/BLOB列 <=40 bytes 时总是存放于数据页。可以避免compact那样把太多的大列值放到 B-tree Node，因为dynamic格式认为，只要大列值有部分数据放在off-page，那把整个值放入都放入off-page更有效。

compressed 物理结构上与dynamic类似，但是对表的数据行使用zlib算法进行了压缩存储。在long blob列类型比较多的情况下用，可以降低off-page的使用，减少存储空间（50%左右，可参见之前“【数据库评测报告】第三期：innodb、tokudb压缩性能”报告中的测试结果），但要求更高的CPU，buffer pool里面可能会同时存储数据的压缩版和非压缩版，所以也多占用部分内存。

最后参考了《高性能MySQL》，给出一些使用BLOB这类变长大字段类型的建议：

①大字段在InnoDB里可能浪费大量空间。例如，若存储字段值只是比行的要求多了一个字节，也会使用整个页面来存储剩下的字节，浪费了页面的大部分空间。同样的，如果有一个值只是稍微超过了32个页的大小，实际上就需要使用96个页面。

②太长的值可能使得在查询中作为WHERE条件不能使用索引，因而执行很慢。在应用WHERE条件之前，MySQL需要把所有的列读出来，所以可能导致MySQL要求InnoDB读取很多扩展存储，然后检查WHERE条件，丢弃所有不需要的数据。

③一张表里有很多大字段，最好组合起来单独存到一个列里面。让所有的大字段共享一个扩展存储空间，比每个字段用自己的页要好。

④把大字段用COMPRESS()压缩后再存为BLOB，或者在发送到MySQL前在应用程序中进行压缩，可以获得显著的空间优势和性能收益。

⑤扩展存储禁用了自适应哈希，因为需要完整的比较列的整个长度，才能发现是不是正确的数据。

以上就是MySQL数据行溢出的深入理解的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/379473.html

mysql sql 数据库程序员

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Win10电脑使用时长怎么看？

上一篇 2025年11月6日 10:53:14

当鸭子遇上硬核战术搜打撤新游《逃离鸭科夫》登陆Steam新品节！

下一篇 2025年11月6日 10:53:18

用户投稿

开源免费PHP工具 PHP开发效率提升利器

推荐开源免费PHP开发工具以提升效率：VS Code、Sublime Text轻量高效，PhpStorm专业强大；调试用Xdebug、Kint、Ray；依赖管理选Composer；代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer；数据库管理可用%ignore_a_1%MyA…

程序猿
2026年5月10日
0000
MySQL数据库不支持中文的解决办法

接上一篇文章，在解决了mysql+flask环境配置问题之后，往数据库存中文字符串会报1366错误，提示不正确的字符。继而发现默认的mysql采用了latin1字符集，这种编码是不支持中文的。如果想支持中文的话，需要设置一下mysql字符集。众所周知utf-8是可以的，gbk也没问题，为了可扩展…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

后缀php怎么打开_php文件打开方式与运行环境搭建指南

要打开PHP文件需根据用途选择方式：查看代码可用文本编辑器或IDE，运行则需服务器环境。推荐新手使用XAMPP、WAMP等集成环境，将文件放入htdocs目录后访问localhost；开发者可利用PHP内置服务器，命令行执行php -S localhost:8000运行；高级用户可手动配置Apach…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
php登录怎么实现_php用户登录系统完整实现

<blockquote>PHP用户登录系统的核心是安全验证与会话管理。首先创建POST提交的登录表单，避免敏感信息暴露；后端通过session_start()启动会话，使用trim()和htmlspecialchars()清理输入，防止XSS攻击；利用PDO预处理语句查询数据库，防止SQ…

程序猿
用户投稿 2026年5月10日
0000
用户投稿

远程MySQL数据库连接指南：从本地PHP应用访问GCP实例数据库

本文详细指导如何在本地php应用中连接到google cloud platform (gcp) 虚拟机实例上的远程mysql数据库。教程涵盖了数据库连接参数的配置、使用php pdo建立连接的方法、gcp环境下的网络配置要点，以及常见的安全和故障排除建议，旨在帮助开发者顺利实现跨环境的数据库通信。 …

程序猿
2026年5月10日
0000
用户投稿

在PHP中实现MySQL数据插入时避免重复记录的策略

本文将探讨在php应用中向mysql数据库插入数据时，如何有效避免重复记录的产生。针对当主键或唯一索引字段值已存在的情况，我们将介绍使用`insert ignore`语句的策略，以确保数据完整性并防止不必要的重复插入，从而简化数据管理逻辑。引言：数据完整性与重复记录问题在数据库管理中，数据完整性…

程序猿
2026年5月10日
0000
用户投稿

php实现哪些功能

PHP是一种通用脚本语言，可用来实现广泛的功能，包括：动态Web开发：生成响应用户请求的动态 веб页面。内容管理系统（CMS）：构建允许用户管理网站内容的CMS。电子商务：开发具有购物车、订单处理和支付网关集成的电子商务网站。服务器端编程：编写命令行脚本和工具。文件操作：创建、读取、写入和删除文件…

程序猿
2026年5月10日
0000
用户投稿

PHP 动态 SQL WHERE 子句构建：避免重复 AND 的策略

本文探讨了在 php 中动态构建 sql 查询 `where` 子句时常见的“`where and`”语法错误及其解决方案。通过逐步构建条件字符串，确保第一个条件不带 `and`，后续条件正确使用 `and` 连接，从而生成符合 sql 规范的查询语句，提高代码的健壮性和可读性。动态构建 SQL …

程序猿
2026年5月10日
2000
用户投稿

PHP中基于用户角色的页面访问控制实践

本教程详细讲解如何在PHP应用程序中利用会话（Session）机制实现基于用户角色的页面访问控制。通过正确的session_start()调用、用户登录时的角色信息存储，以及在受保护页面进行严格的会话和角色类型检查，确保只有特定用户（如“manager”）才能访问指定页面，从而有效防止未经授权的访问…

程序猿
2026年5月10日
1000
用户投稿

php数据库触发器应用实例_php数据库自动化任务的处理

通过MySQL触发器与PHP结合，可在数据变更时自动记录日志、校验数据及同步状态。首先创建user_log表并定义AFTER INSERT/UPDATE/DELETE触发器，记录users表的操作信息；随后使用PHP的PDO执行增删改操作，验证日志生成；接着创建BEFORE INSERT触发器限制非…

程序猿
2026年5月10日
0000
用户投稿

php数据库数据压缩处理_php数据库存储空间优化方法

可通过启用MySQL行压缩、PHP层数据压缩、优化字段结构及分表归档策略减少存储占用。具体步骤：1. 使用InnoDB压缩表并设置KEY_BLOCK_SIZE；2. PHP中用gzcompress压缩大数据字段，存为BLOB；3. 选用更小数据类型如TINYINT，避免冗余TEXT；4. 将历史数据…

程序猿
2026年5月10日
0000
用户投稿

php数据整理怎么按日期字段分组汇总_php按日期分组统计与时间段合并技巧

可使用SQL或PHP对数据按日期分组汇总。1、通过MySQL的DATE()、YEAR()、MONTH()函数在查询时按日、月、年分组统计；2、在PHP中遍历数组，以date(‘Y-m-d’)等格式化日期作为键进行归类；3、按周可使用date(‘o-W’…

程序猿
2026年5月10日
0000
用户投稿

php数据库如何实现全文搜索 php数据库搜索引擎的构建方法

答案：在PHP项目中实现数据库全文搜索需利用MySQL的FULLTEXT索引功能，通过PDO预处理语句执行MATCH()…AGAINST()查询，结合PHP过滤用户输入以防止SQL注入；为提升体验可引入中文分词、权重排序、结果高亮等优化措施；数据量增长后可迁移至Elasticsearch…

程序猿
2026年5月10日
0000
用户投稿

php调用数据同步方案_php调用多数据库数据同步

首先明确同步需求与模式，如单向、双向、定时或实时同步；接着使用PHP通过PDO连接多数据库，基于时间戳或增量ID同步变更数据，并记录同步状态；为提高可靠性，可引入消息队列、binlog解析、中间同步层及加锁机制；最后注意网络超时、分页处理、错误重试、日志记录与测试验证，确保数据一致性与系统稳定性。 …

程序猿
2026年5月10日
0000
用户投稿

php怎么安装_在云服务器上部署PHP环境的步骤

答案：在云服务器上部署PHP环境需搭建LEMP栈（Linux+Nginx+MySQL+PHP-FPM），依次更新系统、安装Nginx、MariaDB、PHP-FPM及扩展，配置Nginx解析PHP并测试，最后通过权限控制、安全配置、防火墙和HTTPS等措施保障环境安全稳定。在云服务器上部署PHP环…

程序猿
2026年5月10日
0000
用户投稿

使用MySQL和PHP高效获取最热门数据条目：统计与排序实践

本教程详细阐述如何利用mysql的聚合函数和php的mysqli扩展，高效地从数据库中查询并排序出最常出现的数据条目。文章将通过一个具体的案例，指导读者构建正确的sql查询，并结合php进行数据处理和调试，避免常见的sql语法错误和php运行时问题，从而准确获取按频率降序排列的热门数据。在Web开…

程序猿
2026年5月10日
0000
用户投稿

SQL查询：精确判断事件过期，结合日期与时间列

本文旨在解决数据库中事件过期判断不精确的问题，特别是当事件的过期日期和时间分别存储在不同列时。我们将探讨两种主流的sql查询策略：一种是利用逻辑运算符`or`和`and`进行分情况判断，另一种是通过合并日期和时间列为单一时间戳进行直接比较。文章将详细阐述每种方法的实现方式、适用场景及相关注意事项，确…

程序猿
2026年5月10日
1000
用户投稿

HTML表单如何实现白名单功能？怎样只允许授权用户？

要实现%ignore_a_1%的白名单功能并确保只有授权用户操作，核心答案是必须依赖后端服务器进行严格的身份认证、会话管理、授权检查和数据验证，前端仅能提供用户体验层面的初步提示而不能保障安全；具体而言，首先通过用户身份认证（如用户名/密码或oauth）确认用户身份，服务器创建会话并返回标识符，后续…

程序猿
2026年5月10日
8000

发表回复

登录后才能评论