count(*)为什么很慢?原因分析

count(*)为什么很慢?下面本篇文章就来给大家分析一下原因,并聊聊count(*)的执行过程,希望对大家有所帮助!

count(*)为什么很慢?原因分析

本没想着写这篇文章的,因为我觉得这个东西大多数有经验的开发遇到过,肯定也了解过相关的原因,但最近我看到有几个关注的技术公众号在推送相关的文章。实在令我吃惊!

先上公众号文章的结论:

count(*) :它会获取所有行的数据,不做任何处理,行数加1。count(1):它会获取所有行的数据,每行固定值1,也是行数加1。count(id):id代表主键,它需要从所有行的数据中解析出id字段,其中id肯定都不为NULL,行数加1。count(普通索引列):它需要从所有行的数据中解析出普通索引列,然后判断是否为NULL,如果不是NULL,则行数+1。count(未加索引列):它会全表扫描获取所有数据,解析中未加索引列,然后判断是否为NULL,如果不是NULL,则行数+1。

结论:count(*) ≈ count(1) > count(id) > count(普通索引列) > count(未加索引列)

我也不想卖关子了,以上结论纯属放屁。根本就是个人yy出来的东西,甚至不愿意去验证一下,哪怕看一眼执行计划,也得不出这么离谱的结论。

我不敢相信这是一篇被多个技术公众号转载的文章!

以下所有的内容均是基于,mysql 5.7 + InnoDB引擎, 进行的分析。

拓展:

MyISAM 如果没有查询条件,只是简单的统计表中数据总数,将会返回的超快,因为service层中获取到表信息中的总行数是准确的,而InnoDB只是一个估值。

实例

废话不多说,先看一个例子。

以下是一张表数据量有100w,表中字段相对较短,整体数据量不算大。

CREATE TABLE `hospital_statistics_data` (  `pk_id` bigint unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',  `id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '外键',  `hospital_code` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '医院编码',  `biz_type` tinyint NOT NULL COMMENT '1服务流程  2管理效果',  `item_code` varchar(36) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '考核项目编码',  `item_name` varchar(64) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '考核项目名称',  `item_value` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '考核结果',  `is_deleted` tinyint DEFAULT NULL COMMENT '是否删除 0否 1是',  `gmt_created` datetime DEFAULT NULL COMMENT '创建时间',  `gmt_modified` datetime DEFAULT NULL COMMENT 'gmt_modified',  `gmt_deleted` datetime(3) DEFAULT '9999-12-31 23:59:59.000' COMMENT '删除时间',  PRIMARY KEY (`pk_id`)) DEFAULT CHARSET=utf8mb4  COMMENT='医院统计数据';

此表初始状态只有一个聚簇索引

以下分不同索引情况,看一下COUNT(*)的执行计划。

1)在只有一个聚簇索引的情况下看一下执行计划。

EXPLAIN select COUNT(*) from hospital_statistics_data;

结果:

count(*)为什么很慢?原因分析

关于执行计划的各个参数的含义,不在本文的讨论范围内,可自行了解。

这里只关注以下几个属性。

type: 这里显示index,说明使用了索引。

key:PRIMARY使用了主键索引。

key_len: 索引长度8字节。

这里有很关键的一点:count(*)也会走索引,在当前情况下使用了聚簇索引。

好,再往下看。

2)存在一个非聚簇索引(二级索引)

给表添加一个hospital_code索引。

alter table hospital_statistics_data add index idx_hospital_code(hospital_code)

此时表中存在2个索引,主键 hospital_code

同样的,再执行一下:

EXPLAIN select COUNT(*) from hospital_statistics_data;

结果:

count(*)为什么很慢?原因分析

同样的,看一下 type、key和key_len三个字段。

是不是觉得有点“神奇”。

为何索引变成刚添加的idx_hospital_code了。

先别急着想结论,再看下面一种情况。

3)存在两个非聚簇索引(二级索引)

在上面的基础上,再添加一个二级索引。

alter table hospital_statistics_data add index idx_biz_type(biz_type)

此时表中存在3个索引,主键 、hospital_code 和 biz_type。

同样的,执行一下:

EXPLAIN select COUNT(*) from hospital_statistics_data;

结果:

count(*)为什么很慢?原因分析

是不是更困惑了,索引又..又又…变了.

变成新添加的idx_biz_type。

先不说为何会产生以上的变化,继续往下分析。

在以上3个索引的基础上,分别看一下,count(1)count(id)count(index)count(无索引)

这4种情况,与count(*)的执行计划有何区别。

count(1)

count(*)为什么很慢?原因分析

count(id)对于样例表来说是,主键是pk_id

image.png

count(index)

这里选取biz_type索引字段。

因赛AIGC 因赛AIGC

因赛AIGC解决营销全链路应用场景

因赛AIGC 73 查看详情 因赛AIGC

count(*)为什么很慢?原因分析

count(无索引)

count(*)为什么很慢?原因分析

小结:

count(index) 会使用当前index指定的索引。

count(无索引) 是全表扫描,未走索引。

count(1) , count(*), count(id) 一样都会选择idx_biz_type索引

看到这,你还觉得那些千篇一律的公众号文章的结论正确吗?

必要知识点

mysql 分为service层引擎层

所有的sql在执行前会经过service层的优化,优化分为很多类型,简单的来说可分为成本规则

执行计划所反映的是service层经过sql优化后,可能的执行过程。并非绝对(免得有些人说我只看执行计划过于片面)。绝大多数情况执行计划是可信的

索引类型分为聚簇索引非聚簇索引(二级索引)。其中数据都是挂在聚簇索引上的,非聚簇索引上只是记录的主键id。

抛开数据内存,只谈数据量,都是扯淡。什么500w就是极限,什么2个表以上的join都需要优化了,什么is null不会走索引等,纯纯的放屁。

相信一点,编写mysql代码的人比,看此文章的大部分人都要优秀。他们会尽可能在执行前,对我这样菜逼写的乱七八糟的sql进行优化。

原因分析

其实原因非常非常简单,上面也说了,service层会基于成本进行优化

并且,正常情况下,非聚簇索引所占有的内存要远远小于聚簇索引。所以问题来了,如果你是mysql的开发人员,你在执行count(*)查询的时候会使用那个索引?

我相信正常人都会使用非聚簇索引

那如果存在2个甚至多个非聚簇索引又该如何选择呢?

那肯定选择最短的,占用内存最小的一个呀,在回头看看上面的实例,还迷惑吗。

同样都是非聚簇索引。idx_hospital_codelen146字节;而idx_biz_typelen只有1。那还要选吗?

那为何count(*)走了索引,却还是很慢呢?

这里要明确一点,索引只是提升效率的一种方式,但不能完全的解决效率问题。count(*)有一个明显的缺陷,就是它要计算总数,那就意味着要遍历所有符合条件的数据,相当于一个计数器,在数据量足够大的情况下,即使使用非聚簇索引也无法优化太多。

官方文档:

InnoDBhandlesSELECT COUNT(*)andSELECT COUNT(1)operations in the same way. There is no performance difference.

简单的来说就是,InnoDB下 count(*) 等价于 count(1)

既然会自动走索引,那么上面那个所谓的速度排序还觉得对吗? count(*)的性能跟数据量有很大的关系,此外最好有一个字段长度较短的二级索引。

拓展:

另外,多说一下,关于网上说的那些索引失效的情况,大多都是片面的,我这里只说一点。量变才能引起质变,索引的失效取决于你圈定数据的范围,若你圈定的数据量占整体数据量的比例过高,则会放弃使用索引,反之则会优先使用索引。但是此规则并不是完美的,有时候可能与你预期的不同,也可以通过一些技巧强制使用索引,但这种方式少用。

举个栗子:

通过上面这个表hospital_statistics_data,我进行了如下查询:

select * from hospital_statistics_data where hospital_code is not null;

此时这个sql会使用到hospital_code的索引吗?

这里也不卖关子了,若hospital_code只有很少一部分数据是null值,那么将不会走索引,反之则走索引。

原因就2个字:回表

好比去买砂糖橘,如果你只买几斤,那么你随便挑筐里面好的就行。但是如果你要买一筐,我相信老板不会让你在里面一个个挑,而是一次给你一整筐,当然大家都不傻,都知道筐里里面肯定有那么几个坏果子。但是这样效率最高,而且对老板来说损失更小。

执行过程

摘抄自《从根上理解mysql》。我强烈推荐没有系统学过mysql的,看看这本书。

1.首先在server层维护一个count变量

2.server层向InnoDB引擎要第一条记录

3.InnoDB找到第一条二级索引记录,并返回给server层(注意:由于此时只是统计记录数量,所以并不需要回表)

4.由于COUNT函数的参数是*,MySQL会将*当作常数0处理。由于0并不是NULL,server层给count变量加1。

5.server层向InnoDB要下一条记录。

6.InnoDB通过二级索引记录的next_record属性找到下一条二级索引记录,并返回给server层。

7.server层继续给count变量加1。

8.重复上述过程,直到InnoDB向server层返回没记录可查的消息。

9.server层将最终的count变量的值发送到客户端。

总结

写完后还是心中挺郁闷的,现在能从公众号获取到的好文章越来越少了,现在已经是知识付费的时代了。

挺怀念刚工作的时候,那时候每天上午都花点时间看看公众号文章,现在全都是广告。哎!

不过也正常,谁也不能一直为爱发电。

学习还是建议多看看书籍,一般能成书的都不会太差。现在晚上能搜到的都是千篇一律的文章,对错不知。网上

【相关推荐:mysql视频教程】

以上就是count(*)为什么很慢?原因分析的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/351641.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 22:34:32
下一篇 2025年11月5日 22:35:44

相关推荐

  • Go语言HTTP请求限流中间件实现指南

    本文详细介绍了如何在Go语言中构建基于IP的HTTP请求限流中间件。通过集成到`http.HandlerFunc`链,实现对特定IP地址的请求速率控制,并在超出限制时返回HTTP 429%ignore_a_1%。文章探讨了内存存储和Redis等多种状态管理方案,并提供了实际的代码示例和最佳实践,确保…

    2025年12月16日
    000
  • Go 模板中结构体字段的可见性与导出规则

    go 模板在渲染结构体数据时,仅能访问首字母大写的字段。这是因为 go 语言通过标识符首字母的大小写来控制其在包外部的可见性。首字母大写的字段被认为是“导出”的,可在不同包间访问;而首字母小写的字段则为“未导出”,仅限当前包内部使用。由于模板引擎与结构体定义通常位于不同包,因此它只能渲染导出的字段。…

    2025年12月16日
    000
  • Golang如何实现基础的表单文件上传验证_Golang表单文件上传验证项目实战

    创建支持multipart/form-data的HTML表单;2. 使用net/http解析文件并验证:检查文件是否存在、大小不超过10MB、类型在白名单内、防止路径遍历,确保上传安全。 在Golang开发Web应用时,处理表单文件上传是常见需求。不仅要实现文件接收,还要做基础验证,比如文件类型、大…

    2025年12月16日
    000
  • Golang如何优化缓存使用提高性能_Golang缓存使用性能优化实践详解

    答案:本文介绍Golang缓存优化实践,涵盖策略选择、内存控制、穿透雪崩防护及高性能结构使用。1. 选用LRU、FIFO、LFU等策略提升命中率,推荐hashicorp/golang-lru实现线程安全LRU;2. 限制缓存大小防OOM,设置maxCacheSize并监控命中率与容量;3. 防范缓存…

    2025年12月16日
    000
  • Go语言中内嵌方法访问“父”字段的机制探讨

    在go语言中,内嵌结构体的方法无法直接访问其外部(“父”)结构体的字段,因为方法的接收者明确是内嵌类型,不持有外部结构体的引用。本文将深入探讨这一机制,解释其背后的原理,并提供两种解决思路:通过显式传递“父”引用作为替代方案,以及更符合go惯用法的api设计,即采用外部函数或服务对象来处理数据持久化…

    2025年12月16日
    000
  • Go语言中内嵌结构体方法访问宿主字段的机制与实践

    在go语言中,内嵌结构体的方法无法直接访问其宿主(父级)结构体的字段或方法,因为方法的接收者类型是固定的,不具备宿主上下文。本文将深入探讨这一机制,并通过代码示例验证其局限性,同时提供一种通过接口引用宿主的间接解决方案,并最终建议采用更符合go语言习惯的api设计模式,即分离数据和操作,以实现更清晰…

    2025年12月16日
    000
  • Go语言中嵌入式类型方法访问外部结构体字段的机制与实践

    本文深入探讨了go语言中嵌入式结构体的方法是否能够直接访问其外部(父)结构体字段的问题。通过分析go的组合机制和方法接收者原理,明确了这种直接访问是不可行的。文章提供了两种可行的解决方案:显式传递外部结构体实例或在嵌入式结构体中持有外部结构体引用,并对比了go语言中`db.save(user)`与`…

    2025年12月16日
    000
  • Vim Go开发:持久化显示函数签名提示的配置指南

    本文旨在解决vim中go语言开发时,自动补全的函数签名提示短暂显示后消失的问题。通过深入探讨vim的`completeopt`选项以及主流自动补全插件(如`autocomplpop`、`neocomplete.vim`)的配置方法,指导开发者如何启用并持久化显示函数签名、参数类型及返回值信息,从而显…

    2025年12月16日
    000
  • 优化Vim Go开发体验:持久化显示函数签名提示

    本文旨在解决Vim中Go语言开发时,函数签名自动补全提示短暂显示的问题。我们将探讨如何通过配置流行的自动补全插件(如autocomplpop或neocomplete),实现函数参数、类型和返回值信息的持久化显示,从而显著提升开发效率,避免频繁跳转查阅文档,尤其适用于不便使用传统Vim预览窗口的用户。…

    2025年12月16日
    000
  • Vim Go自动补全提示持久化:提升开发效率的配置指南

    本文旨在解决vim中go语言自动补全提示(如函数签名)在输入括号后消失的问题,这给开发者,尤其是go语言新手,带来了不便。我们将探讨如何通过配置特定的vim自动补全插件(如autocomplpop或neocomplete.vim)来持久化显示这些关键信息,从而避免频繁跳转到文档或源代码,显著提升go…

    2025年12月16日
    000
  • Go语言中嵌入类型方法访问“父”字段的机制与最佳实践

    在go语言中,嵌入类型的方法无法直接访问其宿主(“父”)结构体的非嵌入字段。这是因为嵌入机制是类型提升而非继承,方法的接收器始终是其声明时的类型。本文将深入探讨这一限制的原因,并提供两种解决方案:一种是手动传递“父”引用(不推荐),另一种是重新思考api设计,采用更符合go惯例的显式依赖方式,如db…

    2025年12月16日
    000
  • 如何在Vim中启用Go语言自动补全的持久化提示

    本文详细介绍了如何在Vim中配置Go语言自动补全,以实现函数签名和参数类型信息的持久化显示。通过深入解析Vim的completeopt选项以及主流自动补全插件(如autocomplpop和neocomplete)的配置方法,旨在帮助开发者在编码过程中持续获取关键上下文信息,从而提升开发效率,避免频繁…

    2025年12月16日
    000
  • Golang如何搭建基础的投票系统

    答案:使用Golang标准库可快速搭建基于内存的投票系统,支持创建投票、提交选项和查看结果。1. 定义Poll和Option结构体并用map存储;2. 通过net/http实现路由处理:GET/POST /polls用于列表和创建,GET /poll/{id}查看详情,POST /poll/vote…

    2025年12月16日
    000
  • 深入理解Go语言嵌入:方法与宿主结构体字段的访问机制

    Go语言中,嵌入类型的方法接收者是嵌入类型本身,而非其宿主(embedding)结构体。这意味着嵌入方法无法直接访问宿主结构体的非嵌入字段。若需实现类似功能,可考虑在嵌入类型中引入一个接口字段来引用宿主,但这会增加复杂性。更推荐的设计模式是采用 `db.Save(user)` 形式的函数式API,以…

    2025年12月16日
    000
  • 内存缓冲区映射到文件描述符:原理、限制与实践

    本文深入探讨了将现有内存缓冲区映射到文件描述符的挑战与解决方案。重点分析了使用`mmap`结合`MAP_FIXED`的常见误区及其限制,阐明了为何在不进行数据拷贝的情况下,直接将任意内存区域转换为文件描述符通常不可行。文章提供了一种基于共享内存(`shm_open`)的实用方法,即使涉及数据拷贝,也…

    2025年12月16日
    000
  • 如何在Golang中实现微服务配置中心_Golang微服务配置中心方法汇总

    答案:Golang微服务配置中心主流方案包括etcd、Consul、Nacos及Viper集成远程后端。1. etcd通过clientv3实现强一致性和Watch机制,适合高可用场景;2. Consul结合KV存储与服务发现,支持长轮询监听,便于全栈治理;3. Nacos提供友好界面和动态推送,配合…

    2025年12月16日
    000
  • 如何在Golang中实现分布式日志收集

    使用zap生成结构化日志,写入本地文件后由Filebeat采集并发送至Kafka缓冲,再经消费者写入Elasticsearch,最终通过Kibana实现集中查询与分析。 在Golang中实现分布式日志收集,核心思路是将分散在多个服务节点上的日志统一采集、传输并集中存储和分析。这通常涉及日志生成、结构…

    2025年12月16日
    000
  • 如何在Golang中实现基础的跨域请求处理_Golang跨域请求处理项目实战汇总

    答案:Golang中处理跨域需设置响应头或使用中间件,核心是支持OPTIONS预检并正确配置Access-Control-Allow-Origin等字段,手动设置适合简单场景,推荐用gorilla/handlers库或自定义中间件实现精细控制。 在Golang开发中,处理跨域请求(CORS)是前后端…

    2025年12月16日
    000
  • Golang如何实现基础的表单数据绑定_Golang表单数据绑定项目实战

    首先解析HTTP表单数据需调用r.ParseForm()将数据填充至r.Form,之后可通过r.Form.Get()获取字段值;对于结构体绑定,可利用反射遍历结构体字段并从表单中赋值,实现自动映射,提升效率。 在Go语言开发Web应用时,处理HTTP表单数据是常见需求。Golang标准库提供了足够支…

    2025年12月16日
    000
  • 如何在Golang中实现微服务网关请求转发_Golang微服务网关请求转发方法汇总

    答案:Golang中实现微服务网关请求转发以net/http/httputil.ReverseProxy为核心,通过Director函数修改请求目标,结合服务发现动态获取实例,支持负载均衡策略,利用中间件实现认证、限流、日志等功能,适用于轻量级网关场景。 在Golang中实现微服务网关的请求转发,核…

    2025年12月16日
    000

发表回复

登录后才能评论
关注微信