MySQL数据行溢出的深入理解

本篇文章给大家带来的内容是关于mysql数据行溢出的深入理解,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

一、从常见的报错说起

故事的开头我们先来看一个常见的sql报错信息:

1177640206-5c244c846e089_articlex.png

相信对于这类报错大家一定遇到过很多次了,特别对于OMG这种已内容生产为主要工作核心的BG,在内容线的存储中,数据大一定是个绕不开的话题。这里的数据“大”,远不止存储空间占用多,其中也包括了单个(表)字段存储多、大,数据留存时间长,数据冗余多,冷热数据不明显导致的体量大,访问峰值随着热点变化明显,逻辑处理复杂导致数据存储压力放大等等。回到这个报错的问题上来,我们先来看一下这个表的结构:

微信截图_20181230091755.png

看到这里,我相信大家会有不同的处理方式了,这里就不对各种处理方式的优劣做比较了,仅仅叙述使用频率较高的两种处理方式。

根据报错的指引,把两个大的varchar(22288)改成text、blob

根据业务特点,缩小varchar的存储长度,或者按照规则拆分成多个小的vachar和char

这两种的处理方式也各有优缺点,把字段改成text或者blob,不仅增大了数据存储的容量,对这个字段的索引页只能采用前缀或者全文索引了,如果业务侧存储的是json格式的数据,5.7支持json数据类型是个不错的选择,可以针对单个子类进行查询和输出。同样如果缩小和拆分的话就比较依赖业务的场景和逻辑需求了,业务使用的逻辑上需要修改,工程量也需要评估。

二、深入探索

接着我们再来深入分析下关于限制大小“65535”的一些容易混淆的概念。

1、“65535”不是单个varchar(N)中N的最大限制,而是整个表非大字段类型的字段的bytes总合。

———————————————————————————————

Every table (regardless of storage engine) has a maximum row size of 65,535 bytes. Storage engines may place additional constraints on this limit, reducing the effective maximum row size.

———————————————————————————————

2、不同的字符集对字段可存储的max会有影响,例如,UTF8字符需要3个字节存储,对于VARCHAR(255)CHARACTER SET UTF8列,会占用255×3 =765的字节。故该表不能包含超过65,535/765=85这样的列。GBK是双字节的以此类推。

3、可变长度列在评估字段大小时还要考虑存储列实际长度的字节数。例如,VARCHAR(255)CHARACTER SET UTF8列需要额外的两个字节来存储值长度信息,所以该列需要多达767个字节存储,其实最大可以存储65533字节,剩余两个字节存储长度信息。

4、BLOB、TEXT、JSON列不同于varchar、char等字段,列长度信息独立于行长存储,可以达到65535字节真实存储

5、定义NULL列会降低允许的最大列数。

InnoDB表,NULL和NOT NULL列存储大小是一样

MyISAM表,NULL列需要额外的空间记录其值是否为NULL。每个NULL需要一个额外的位(四舍五入到最接近的字节)。最大行长度计算如下:

row length = 1  + (sum of column lengths)   + (number of NULL columns + delete_flag + 7)/8 + (number of variable-length columns)

静态表,delete_flag = 1,静态表通过在该行记录一个位来标识该行是否已被删除。

动态表,delete_flag = 0,该标记存储在动态行首,动态表具体可以根据

6、对于InnoDB表,NULL和NOT NULL列存储大小是一样

7、InnoDB允许单表最多1000个列

8、varchar主键只支持不超过767个字节或者768/2=384个双字节 或者767/3=255个三字节的字段 而GBK是双字节的,UTF8是三字节的

9、不用的引擎对索引的限制有区别

innodb每个列的长度不能大于767 bytes;所有组成索引列的长度和不能大于3072 bytes

myisam 每个列的长度不能大于1000 bytes,所有组成索引列的长度和不能大于1000 bytes

三、真正的故障

下面来说下今天遇到的业务故障,线上业出现了大量的如下报错,导致程序无法写入数据:

1262144492-5c244c843e977_articlex.png

按照提示和正常的思路,我们先第一反应认为业务存在如下的问题:

设置的表结构中字段超过了限制

某个字段插入的数据长度超过了改字段设置的max值

接着查看了业务的库表结构,如下:

4103217804-5c244c8428e51_articlex.png

很快排除了第一个原因,因为首先业务的报错不是在建立表的时候出现的,如果是表中非大字段之和65535,在建表的时候就会出错,而业务是在写入的时候才报错的,而且通过库表结构也能发现大量的都是mediumblob类型字段,非大字段加起来远小于65535。

接着根据业务提供的具体SQL,appversion、datadata、elt_stamp、id这几个非大字段,也并没有超过限制,mediumblob类型字段最大可存储16M,业务的数据远远没有达到这个量级。按照报错的提示把 appversion、datadata、elt_stamp、id这几个非大字段均改成blob类型,还是无法解决。(根据之前的分析,必然不是问题的根源)。

冷静下来后,发现其实还有个细节被忽略掉了,业务的失败率不是100%,说明还是有成功的请求,通过对比成功和失败的sql,发现果然数据量差异的还是mediumblob类型字段。那么现在第一个想到的就是,max_allowed_packet这个参数,是不是调小了,是的单个请求超过大小被拒绝了,查了下配置的值(如下图),配置的大小1G,sql的数据长度远没有这么大,这个原因也排除了。

2749903567-5c244c83cf539_articlex.png

查到这里基本上排除了常见几个问题,接着再看一下另一个参数的限制:innodb_page_size,这个的默认值是16K,每个page两行数据,所以每行最大8k数据。

钉钉 AI 助理 钉钉 AI 助理

钉钉AI助理汇集了钉钉AI产品能力,帮助企业迈入智能新时代。

钉钉 AI 助理 21 查看详情 钉钉 AI 助理

查看了下数据表Row_format是Compact,那么我们可以推断问题的原因应该就是innodb默认的approach存储格式会把每个blob字段的前864个字节存储在page里,所以blob超过一定数量的话,单行大小就会超过8k,所以就报错了。通过对比业务写成功和失败的SQL也应征了这个推论,那么现在要怎么解决这个问题?

业务拆分表,大字段进行分表存储

通过解决Row_format的存储方式解决问题

由于业务单表的存储条数并不大,而且业务逻辑不适合拆分,所以我们要在Row_format上来解决这个问题。

Barracuda文件格式下拥有两种新的行记录格式Compressed和Dynamic两种,新的两种格式对于存放BLOB的数据采用了完全的行溢出的方式,在数据页中只存放20个字节的指针,实际的数据都存放在BLOB Page中。Compressed行记录格式的另一个功能就是存储在其中的数据会以zlib的算法进行压缩。

相关的变更操作就相对简单了:

1、 修改MySQL全局变量:

SET GLOBAL innodb_file_format=’Barracuda’;

2、平滑变更原表的属性:

ROW_FORMAT=COMPRESSED

四、继续学习

通过这个案例我们可以从中提炼出两个值得深入研究一下的点:

1、关于innodb_page_size

从MySQL5.6开始,innodb_page_size可以设置Innodb数据页为8K,4K,默认为16K。这个参数在一开始初始化时就要加入my.cnf里,如果已经创建了表,再修改,启动MySQL会报错。

那么在5.6的版本之前要修改这个值,怎么办?那只能是在源码上做点文章了,然后重新rebuild一下MySQL。

2067607084-5c244c83c2dd6_articlex.png

UNIV_PAGE_SIZE是数据页大小,默认的是16K,该值是可以设置必须为2的次方。对于该值可以设置成4k、8k、16k、32K、64K。同时更改了UNIV_PAGE_SIZE后需要更改UNIV_PAGE_SIZE_SHIFT 该值是2的多少次方为UNIV_PAGE_SIZE,所以设置数据页分别情况如下:

1578727664-5c244c83787de_articlex.png

接着再来说一下innodb_page_size设置成不同值的对于mysql性能上的影响,测试的表含有1亿条记录,文件大小30G。

①读写场景(50%读50%写)

16K,对CPU压力较小,平均在20%

8K,CPU压力为30%~40%,但select吞吐量要高于16K

②读场景(100%读)

16K和8K差别不明显

InnoDB Buffer Pool管理页面本身也有代价,Page数越多,那么相同大小下,管理链表就越长。因此当我们的数据行本身就比较长(大块插入),更大的页面更有利于提升速度,因为一个页面可以放入更多的行,每个IO写的大小更大,可以更少的IOPS写更多的数据。 当行长超过8K的时候,如果是16K的页面,就会强制转换一些字符串类型为TEXT,把字符串主体转移到扩展页中,会导致读取列需要多一个IO,更大的页面也就支持了更大的行长,64K页面可以支持近似32K的行长而不用使用扩展页。 但是如果是短小行长的随机读取和写入,则不适合使用这么大的页面,这会导致IO效率下降,大IO只能读取到小部分。

2、关于Row_format

Innodb存储引擎保存记录,是以行的形式存放的。在InnoDB 1.0.x版本之前,InnoDB 存储引擎提供了 Compact 和 Redundant 两种格式来存放行记录数据。MySQL 5.1 中的innodb_plugin 引入了新的文件格式:Barracuda,该文件格式拥有新的两种行格式:compressed和dynamic。并且把 compact 和 redundant 合称为Antelope。可以通过命令SHOW TABLE STATUS LIKE ‘table_name’;来查看当前表使用的行格式,其中 row_format 列表示当前所使用的行记录结构类型。

MySQL 5.6 版本中,默认 Compact ,msyql 5.7.9 及以后版本,默认行格式由innodb_default_row_format变量决定,默认值是DYNAMIC,也可以在 create table 的时候指定ROW_FORMAT=DYNAMIC(通过这个可动态调整表的存储格式)。如果要修改现有表的行模式为compressed或dynamic,必须先将文件格式设置成Barracuda(set global innodb_file_format=Barracuda;)。再用ALTER TABLE tablename ROW_FORMAT=COMPRESSED;去修改才能生效,否则修改无效却无提示。

①compact

如果blob列值长度 <= 768 bytes,不会发生行溢出(page overflow),内容都在数据页(B-tree Node);如果列值长度 > 768字节,那么前768字节依然在数据页,而剩余的则放在溢出页(off-page),如下图:

3629077771-5c244c8393a92_articlex.png

上面讲的blob或变长大字段类型包括blob、text、varchar,其中varchar列值长度大于某数N时也会存溢出页,在latin1字符集下N值可以这样计算:innodb的块大小默认为16kb,由于innodb存储引擎表为索引组织表,树底层的叶子节点为一双向链表,因此每个页中至少应该有两行记录,这就决定了innodb在存储一行数据的时候不能够超过8k,减去其它列值所占字节数,约等于N。

②compressed或dynamic

对blob采用完全行溢出,即聚集索引记录(数据页)只保留20字节的指针,指向真实存放它的溢出段地址:

3507325740-5c244c83a06bf_articlex.png

dynamic行格式,列存储是否放到off-page页,主要取决于行大小,它会把行中最长的那一列放到off-page,直到数据页能存放下两行。TEXT/BLOB列 <=40 bytes 时总是存放于数据页。可以避免compact那样把太多的大列值放到 B-tree Node,因为dynamic格式认为,只要大列值有部分数据放在off-page,那把整个值放入都放入off-page更有效。

compressed 物理结构上与dynamic类似,但是对表的数据行使用zlib算法进行了压缩存储。在long blob列类型比较多的情况下用,可以降低off-page的使用,减少存储空间(50%左右,可参见之前“【数据库评测报告】第三期:innodb、tokudb压缩性能”报告中的测试结果),但要求更高的CPU,buffer pool里面可能会同时存储数据的压缩版和非压缩版,所以也多占用部分内存。

最后参考了《高性能MySQL》,给出一些使用BLOB这类变长大字段类型的建议:

①大字段在InnoDB里可能浪费大量空间。例如,若存储字段值只是比行的要求多了一个字节,也会使用整个页面来存储剩下的字节,浪费了页面的大部分空间。同样的,如果有一个值只是稍微超过了32个页的大小,实际上就需要使用96个页面。

②太长的值可能使得在查询中作为WHERE条件不能使用索引,因而执行很慢。在应用WHERE条件之前,MySQL需要把所有的列读出来,所以可能导致MySQL要求InnoDB读取很多扩展存储,然后检查WHERE条件,丢弃所有不需要的数据。

③一张表里有很多大字段,最好组合起来单独存到一个列里面。让所有的大字段共享一个扩展存储空间,比每个字段用自己的页要好。

④把大字段用COMPRESS()压缩后再存为BLOB,或者在发送到MySQL前在应用程序中进行压缩,可以获得显著的空间优势和性能收益。

⑤扩展存储禁用了自适应哈希,因为需要完整的比较列的整个长度,才能发现是不是正确的数据。

以上就是MySQL数据行溢出的深入理解的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/379473.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 10:49:32
下一篇 2025年11月6日 10:53:44

相关推荐

  • Golang实现简单爬虫怎么做 组合net/http与goquery解析HTML

    答案:使用Golang实现爬虫需先用net/http发送请求并处理错误、超时和重定向,再通过goquery结合CSS选择器解析HTML提取数据,最后利用goroutine和channel实现并发抓取,配合WaitGroup同步,数据可存为文件或数据库。 用Golang实现一个简单的爬虫,核心思路其实…

    2025年12月15日
    000
  • Golang实现短链接服务 算法与存储设计

    短链接服务核心是唯一标识生成与高效存储。采用“分布式ID+Base62编码”算法可保证唯一性与较短长度,结合“MySQL/PostgreSQL+Redis”存储架构,利用Redis缓存高频读取,数据库持久化保证一致性,Golang通过goroutine处理高并发,配合连接池、异步队列与监控实现高性能…

    2025年12月15日
    000
  • Google App Engine Go 应用中的状态管理与持久化策略

    本文旨在解决Google App Engine (GAE) Go 应用中因实例自动伸缩导致的内存变量重置问题。当GAE启动新进程时,应用内存中的数据会丢失。核心解决方案是避免将关键数据存储在RAM中,而应利用GAE提供的持久化存储服务,如Memcache、Datastore等,以确保数据在不同实例间…

    2025年12月15日
    000
  • Golang错误处理与数据库操作 SQL错误转换技巧

    答案:Go中数据库错误处理需通过errors.As提取底层错误并结合SQL状态码进行精准转换,避免依赖错误消息字符串。应封装统一的错误映射函数,将驱动错误(如PostgreSQL的23505唯一键冲突)转化为应用级错误,提升代码健壮性与可维护性。 在Go语言开发中,错误处理和数据库操作是两个高频且关…

    2025年12月15日
    000
  • Golang初级项目完整指南 从零到上线

    对于初学者来说,从零开始搭建并成功上线一个Go语言项目,关键在于理解其简洁高效的特性,并遵循一套从概念到部署的实践路径。这不仅仅是写几行代码,更是一次系统性思考和解决问题的过程,涵盖了从项目初始化、依赖管理、核心逻辑开发、测试到最终部署上线的全链路。 解决方案 要将一个Go语言初级项目从零带到线上,…

    2025年12月15日
    000
  • Golang如何集成数据库开发环境 常见数据库驱动配置

    首先引入database/sql标准库和对应数据库驱动,如MySQL的github.com/go-sql-driver/mysql;通过sql.Open()使用DSN连接数据库,需正确配置用户名、密码、地址等信息;导入驱动时使用下划线表示仅执行初始化注册;成功获取*sql.DB实例后,应设置连接池参…

    2025年12月15日
    000
  • Golang网络编程中的连接池管理 对比不同连接池实现方案

    连接池能显著提升性能和资源利用率。在没有连接池时,每次请求需新建并关闭tcp连接,耗时且易导致资源限制问题;使用连接池后可复用连接,减少开销,并控制最大连接数防止资源耗尽。常见连接池库包括database/sql(适合数据库场景但配置有限)、net/http transport(内置http连接复用…

    2025年12月15日 好文分享
    000
  • Golang实现云原生数据库代理 分库分表中间件开发

    答案:基于Golang构建云原生数据库代理需集成SQL解析、路由引擎、连接池与结果合并模块,选用vitess或TiDB解析器,支持分库分表路由策略,结合Kubernetes实现服务发现与弹性伸缩,通过Prometheus监控保障稳定性。 要用 Golang 实现云原生数据库代理,并支持分库分表,核心…

    2025年12月15日
    000
  • Golang模块如何支持多数据库驱动 讲解database/sql解耦设计实践

    golang项目支持多数据库驱动的关键在于利用database/sql标准库的解耦设计。其核心方法包括:1. 接口抽象,通过统一接口实现业务逻辑与具体数据库解耦;2. 驱动注册机制,通过匿名导入驱动包并在运行时动态选择数据库类型;3. 项目结构分层,定义统一dao接口、为不同数据库编写适配器并根据配…

    2025年12月15日 好文分享
    000
  • Golang连接MySQL数据库 database/sql使用指南

    答案:使用database/sql包和go-sql-driver/mysql驱动连接MySQL,需正确配置DSN(含charset、parseTime、loc等参数)以避免乱码和时间处理错误,合理设置连接池参数(MaxOpenConns、MaxIdleConns、ConnMaxLifetime)提升…

    2025年12月15日
    000
  • Golang多租户实现 数据库隔离方案

    独立数据库提供最高安全性,适合高合规场景但成本高;2. 共享数据库独立Schema平衡隔离与运维,适用于中等规模租户;3. 共享表通过tenant_id区分数据,资源高效但依赖代码严谨;4. 混合方案按租户等级灵活选择,结合中间件解析租户、GORM回调注入条件、上下文传递租户ID,确保数据隔离贯穿调…

    2025年12月15日
    000
  • 怎样用Golang实现工厂模式 对比简单工厂与抽象工厂区别

    简单工厂模式适用于创建单一类型的不同对象,通过一个工厂函数根据参数返回具体实现,适合产品种类少且变化不频繁的场景;抽象工厂模式则用于创建一组相关或依赖的对象家族,通过定义抽象工厂接口和多个具体工厂来保证产品间的一致性,适合需要整体切换产品族的复杂系统。两者核心区别在于简单工厂关注单个对象创建,抽象工…

    2025年12月15日
    000
  • Golang Web项目架构 分层设计最佳实践

    分层设计通过职责分离提升Go Web项目的可维护性与可测试性,典型模式为Handler→Service→Repository→Model四层架构,各层通过接口解耦并依赖注入实现低耦合,便于测试、协作与扩展。 在构建Golang Web项目时,采用分层设计是确保项目可维护、可扩展和易于测试的关键。它本…

    2025年12月15日
    000
  • 如何在Golang中处理CSV大文件 介绍csv.Reader流式处理与内存管理

    在golang中处理csv大文件应使用流式处理,通过csv.reader逐行读取以避免内存暴涨。具体步骤包括:1. 使用csv.newreader配合os.open按行读取文件;2. 避免累积数据、及时释放引用、使用指针传递结构体、合理设置缓冲区以控制内存;3. 推荐边读边写或分批处理,如每读100…

    2025年12月15日 好文分享
    000
  • 怎样测试Golang的数据库操作 使用测试容器与mock方案

    测试Golang数据库操作需隔离外部依赖,常用测试容器和Mock框架。2. 测试容器如Testcontainers启动真实数据库做集成测试,验证SQL、事务等真实行为。3. 示例使用testcontainers-go启动PostgreSQL,初始化表结构,执行CRUD并验证结果。4. Mock框架如…

    2025年12月15日
    000
  • Golang云原生数据库代理 分片中间件

    基于Golang的云原生数据库分片中间件通过SQL解析与路由、连接池管理、结果合并、读写分离及高可用机制,实现数据库水平拆分;利用Golang高性能网络编程、丰富SQL解析库和云原生集成优势,结合协议解析层、路由引擎、元数据管理、执行引擎和监控组件,构建高效可扩展架构,参考Vitess等开源项目,支…

    2025年12月15日
    000
  • Go语言中SQL数据库访问:database/sql 包与驱动生态

    Go语言通过其标准库中的database/sql包提供了一套统一的SQL数据库访问接口。该包定义了通用的数据库操作规范,而具体的数据库连接与操作则由遵循其driver接口的第三方驱动实现。这种设计模式确保了Go在数据库操作上的灵活性、可扩展性和高性能,使其能够广泛应用于各类任务关键型应用,而非仅限于…

    2025年12月15日
    000
  • Golang构建云原生监控工具 Prometheus Exporter开发

    云原生环境中,监控是保障系统稳定运行的关键环节。Prometheus 作为主流的开源监控系统,通过拉取模式采集指标数据,广泛应用于 Kubernetes、微服务架构等场景。而 Go 语言(Golang)凭借其高并发、低延迟和静态编译的特性,成为开发 Prometheus Exporter 的理想选择…

    2025年12月15日
    000
  • Golang构建RSS阅读器 网络Feed解析

    答案是使用Go的net/http库获取Feed并结合gofeed解析,通过设置超时、重试机制和SQLite存储实现高效RSS阅读器。 构建一个Golang的RSS阅读器,核心在于有效地从网络获取并解析不同格式的Feed数据。这通常涉及HTTP请求、XML/Atom解析库的选择与使用,以及如何处理网络…

    2025年12月15日
    000
  • Go语言数据库操作:深入理解database/sql包与生态系统

    本文旨在全面解析Go语言中SQL数据库的连接与管理机制。我们将重点探讨标准库database/sql包如何提供一个统一、高效的数据库操作接口,以及第三方驱动如何在此框架下实现对各类SQL数据库的支持。通过理解其设计哲学、核心功能及使用示例,读者将能够自信地在Go项目中集成和管理关系型数据库,打消对官…

    2025年12月15日
    000

发表回复

登录后才能评论
关注微信