MySQL中的随机抽取如何实现

1. 引言

现在有一个需求是从一个单词表中每次随机选取三个单词。

这个表的建表语句和如下所示:

mysql> Create table 'words'(    'id' int(11) not null auto_increment;    'word' varchar(64) default null;    primary key ('id')) ENGINE=InnoDB;

然后我们向其中插入10000行数据。接下来我们看看如何从中随机选择3个单词。

2. 内存临时表

首先,我们通常会想到用order by rand()来实现这个逻辑:

mysql> select word from words order by rand() limit 3;

虽然这句话很简单,但是执行流程则比较复杂。我们使用explain来看看语句的执行情况:

MySQL中的随机抽取如何实现

Extra字段中Using temporary表示需要使用临时表,Using filesort表示需要进行排序。也就是需要进行排序操作。

对于InnoDB表来说,执行全字段排序能够减少对于磁盘的访问,所以会被优先选择。

MySQL中的随机抽取如何实现

而对于内存表来说,回表过程只是简单地根据数据行的位置,直接访问内存得到数据,根本不会导致多访问磁盘。所以这时MySQL会优选选择rowid排序。

MySQL中的随机抽取如何实现

我们接下来再来梳理下这条语句的执行流程:

创建一个临时表,这个表使用memory引擎,表里有两个字段,第一个字段是double类型,记为R,第二个字段是varchar(64)类型,记为W。并且这个表没有索引。

从words表中,按主键顺序取出所有的word。对于每个word,调用rand()函数随机生成一个大于0小于1的随机小数,并把这个随机小数和word分别存入临时表的R和W字段中。

接下来就是按照字段R进行排序

初始化sort_buffer。sort_buffer包括一个double类型和一个整型字段。

从内存临时表中一行行取出R值和位置信息,分别存入sort_buffer的两个字段里。

sort_buffer按照R值进行排序

排序完成后,取出前三个结果的位置信息,到内存临时表中取出相应的word,返回给客户端。

灵机语音 灵机语音

灵机语音

灵机语音 56 查看详情 灵机语音

流程示意图如下所示:

MySQL中的随机抽取如何实现

上面讲的位置信息,其实就是行所在的位置,也就是我们之前说的rowid。

对于InnoDB引擎来说,对于有没有主键表来说有两种处理方式:

对于有主键的InnoDB表来说,这个rowid就是主键id

对于没有主键的InnoDB表来说,这个rowid是由系统生成的,用来标识不同行。

因此,order by randn()使用了内存临时表,内存临时表的排序方法用的是rowid排序方法

3. 磁盘临时表

不是所有的临时表都是内存临时表。tmp_table_size这个配置限制了内存临时表的大小,如果超过了这个大小,就会使用磁盘临时表。InnoDB引擎就是默认使用磁盘临时表

4. 优先队列排序算法

在MySQL5.6之后,引入了优先队列排序算法,这种算法是不需要使用临时文件的。而原本的归并排序算法则是需要使用临时文件。

因为当你使用归并算法的时候,其实你只需要得到前3,但是你是用完归并排序,那已经整体有序了,造成了资源的浪费。

而优先队列排序算法则可以只取到前三,执行流程如下:

对于这10000个准备排序的(R,rowid),先取前三行,构造成一个堆,并且将最大的值放在堆顶;

取下一行(R’,rowid’),跟当前堆里面最大的R比较,如果R’小于R,则把(R,rowid)从堆中去掉,换成(R’,rowid’)。

不断重复上面的过程。

流程如下图所示:

MySQL中的随机抽取如何实现

但是当limit的数比较大时,维护堆比较困难,所以又会使用归并排序算法。

以上就是MySQL中的随机抽取如何实现的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/261015.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月4日 09:03:03
下一篇 2025年11月4日 09:03:31

相关推荐

  • 如何使用Golang开发爬虫数据存储

    使用Golang开发爬虫需先发送HTTP请求获取网页内容,可采用net/http库或colly等第三方库;接着用goquery解析HTML,通过CSS选择器提取标题、链接等结构化数据;随后将数据存储至MySQL、MongoDB或本地JSON/CSV文件;最后利用goroutine实现并发抓取,并设置…

    2025年12月16日
    000
  • Golang单元测试数据库操作实践

    使用内存数据库如SQLite配合事务回滚可实现高效隔离的单元测试,通过接口抽象与Mock提升逻辑独立性,集成测试则可用Docker启动真实数据库验证兼容性,确保测试可重复且无副作用。 在Go语言开发中,数据库操作的单元测试是保障数据层逻辑正确性的关键环节。直接使用生产数据库进行测试会带来副作用,比如…

    2025年12月16日
    000
  • Golang Factory工厂模式创建对象实践

    工厂模式通过封装对象创建逻辑,提升代码解耦与扩展性。1. 简单工厂使用函数根据参数返回不同实现,如支付方式选择;2. 抽象工厂支持多产品族,如不同地区支付与通知组合;3. 适用于数据库驱动、缓存、配置加载等场景。 在Go语言中,Factory(工厂)模式是一种创建型设计模式,用于解耦对象的创建逻辑。…

    2025年12月16日
    000
  • Golang简单博客系统开发实战

    答案:用Go语言可快速搭建一个具备文章发布、查看和管理功能的简单博客系统。通过合理设计项目结构,定义文章模型并使用内存存储,结合HTTP路由与处理器实现CRUD操作,利用模板引擎渲染HTML页面,并提供静态资源访问支持,最终运行服务即可在浏览器中访问基础博客首页,具备完整雏形且易于扩展。 想快速上手…

    2025年12月16日
    000
  • Golang包重命名与导入别名使用方法

    在Go语言中,包重命名通过import别名解决命名冲突、提升可读性。例如import ( myfmt “fmt” )将fmt重命名为myfmt,后续用myfmt.Println调用;当导入同名包如json和jsoniter时,别名可明确区分标准库与第三方;使用_进行匿名导入可…

    2025年12月16日
    000
  • Go语言中实现动态IN查询的指南

    本文详细介绍了在Go语言中使用database/sql包执行带有动态参数列表的IN查询的方法。由于database/sql不直接支持将切片作为单个占位符的参数,因此需要通过动态生成SQL占位符字符串并使用interface{}切片配合可变参数来构建查询,同时考虑了空切片等边界情况。 理解databa…

    2025年12月16日
    000
  • 数据库连接池性能调优实践

    合理设置连接池参数可提升系统性能,需根据业务特征配置最小/最大连接数、获取超时时间及空闲回收策略;启用借出、归还或空闲时的连接检测机制保障连接有效性;结合监控活跃连接、等待线程等指标持续优化;针对高并发、批处理、读写分离等场景差异化配置,实现资源与稳定的平衡。 数据库连接池是应用系统与数据库之间的重…

    2025年12月16日
    000
  • Go语言连接外部MySQL数据库:DSN配置与常见错误解析

    本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称(dsn)的规范格式,特别是主机地址部分的配置,以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

    2025年12月16日
    000
  • Go语言连接外部MySQL数据库:DSN配置与常见错误排查

    本文将深入探讨go语言如何使用`database/sql`和`go-sql-driver/mysql`连接外部mysql数据库。我们将详细介绍dsn(数据源名称)的构建方式,并通过一个实际案例分析`getaddrinfow: the specified class was not found.`这一…

    2025年12月16日
    000
  • OAuth认证后的用户数据持久化与安全会话管理

    本教程将深入探讨OAuth2认证流程中,如何高效且安全地处理从身份提供商获取的用户数据,并将其持久化到数据库。我们将介绍使用UPSERT操作来避免数据重复和竞态条件,并详细阐述如何通过配置安全的HTTP-only会话Cookie来建立和维护用户会话,以抵御常见的Web安全威胁,确保用户认证体验的流畅…

    2025年12月16日
    000
  • Go语言database/sql包中处理动态SQL IN 查询的实践指南

    本文详细介绍了在Go语言中使用database/sql包执行动态SQL IN查询的通用方法。针对IN子句无法直接接受切片作为参数的问题,教程重点阐述了如何通过动态生成占位符?并配合可变参数传递切片元素来构建安全高效的查询,并提供了完整的代码示例和注意事项。 在go语言的database/sql包中,…

    2025年12月16日
    000
  • OAuth2认证后用户数据存储与会话安全指南

    本文旨在提供OAuth2认证后处理用户数据持久化和会话管理的最佳实践。我们将探讨如何将OAuth返回的用户数据安全地存储到数据库,推荐使用事务性的UPSERT操作来处理用户存在性检查与插入/更新。同时,文章还将详细阐述如何通过配置安全的HTTP-only会话Cookie来建立和维护用户会话,并强调H…

    2025年12月16日
    000
  • OAuth响应处理与安全会话管理:数据库集成与Cookie最佳实践

    本教程深入探讨了OAuth2认证流程结束后,如何安全高效地处理用户数据并建立会话。文章首先介绍了将OAuth提供者返回的用户数据存储到数据库的最佳实践,重点讲解了原子性的UPSERT操作以避免数据冗余和竞态条件。随后,详细阐述了基于Cookie的会话管理策略,强调了使用HTTPS、Secure、Ht…

    2025年12月16日
    000
  • Go database/sql 包查询结果行数精确判断与首行数据获取

    本文深入探讨Go语言中database/sql包在数据库查询时,如何精确判断返回结果的行数(零行、单行或多行),并安全地获取首行数据。针对QueryRow的局限性,文章提供了一个通用的自定义函数方案,利用db.Query和*sql.Rows的特性,实现对查询结果的细粒度控制,同时强调了错误处理和资源…

    2025年12月16日
    000
  • OAuth2集成:用户数据持久化与安全会话管理指南

    本文旨在探讨OAuth2认证流程结束后,如何高效且安全地处理用户数据持久化与会话管理。我们将重点介绍数据库中用户数据的“存在则更新,不存在则插入”(UPSERT)策略,并深入讲解如何利用HTTPS和安全、HttpOnly的Cookie来建立健壮的用户会话,以确保用户体验和系统安全。 1. OAuth…

    2025年12月16日
    000
  • 在Go语言中处理SQL IN 子句的动态参数绑定

    本文旨在解决Go语言database/sql包中,如何将动态切片(slice)作为IN查询条件参数的问题。由于db.Query无法直接将切片展开为多个占位符,我们将探讨一种通用且安全的解决方案,通过动态生成SQL语句中的占位符并结合interface{}类型转换来实现,确保代码的灵活性和防止SQL注…

    2025年12月16日
    000
  • OAuth 响应处理与安全会话管理实践指南

    本教程旨在指导开发者如何高效且安全地处理 OAuth2 认证流程中获取的用户数据,并将其存储至数据库。文章将重点介绍采用 UPSERT 语句进行数据更新或插入的最佳实践,同时详细阐述如何利用安全 Cookie(如 Secure、HttpOnly 和 Path 选项)构建健壮的用户会话管理机制,规避潜…

    2025年12月16日
    000
  • Go语言database/sql:高效构建和执行带有可变参数的IN查询

    在Go语言中,使用database/sql包执行带有可变参数列表的IN查询时,直接传入切片作为单个占位符是无效的。本文将详细介绍一种通用的解决方案,通过动态生成SQL语句中的占位符(问号),并将切片元素展开为独立的参数传递给db.Query方法,从而优雅地处理IN子句中的可变值集合,并讨论相关注意事…

    2025年12月16日
    000
  • Golang如何实现自动化备份与恢复

    Go语言适合构建自动化备份与恢复系统,其核心是通过调用系统命令或API实现数据备份与恢复。1. 文件备份可使用os和io包复制文件,数据库备份可通过mysqldump等工具或驱动导出;2. 使用robfig/cron库设置定时任务,如每日2点执行备份,并结合systemd或Kubernetes管理任…

    2025年12月16日
    000
  • 如何使用Golang测试数据库操作

    使用事务回滚确保测试隔离,通过传入*sql.Tx实现数据操作函数的可测试性,结合sqlmock模拟SQL验证逻辑,保证测试可重复且无副作用。 测试数据库操作在 Golang 中是确保数据层逻辑正确的重要环节。关键在于隔离真实环境、使用事务控制以及合理模拟数据。以下是具体实践方法。 使用测试数据库或事…

    2025年12月16日
    000

发表回复

登录后才能评论
关注微信