竟然被awk生成的随机数给整蒙了,也谈随机数生成种子

我们公司主要业务是为科研单位提供%ign%ignore_a_1%re_a_1%构建服务,目前我们已经成功帮助客户发表了三篇关于数据库的文章在《nucleic acids research》(nar)上。你可以在我们的数据中找到这三篇文章的详细信息。

最近,一位老师急需我们构建一个数据库,但由于时间紧迫,数据尚未准备好。我们的解决方案是先用随机生成的数据作为测试,搭建数据库架构,等到真实数据准备好后,再替换这些测试数据,进行最后的测试和完善。

起初,我们使用以下码来生成随机数字,效果看起来不错,每次运行都能生成不同的随机数,符合我们的预期。

awk 'BEGIN{OFS=FS="t";}{ $2=100 * rand(); print $0;}' 00232503-7e34-479a-b6fb-0b52e78b554e.txt | cut -f 1-3 | headRnu7-186P    99.4034    ACC-3Rnu2-41P    24.6362    ACC-3
awk 'BEGIN{OFS=FS="t";}{ $2=100 * rand(); print $0;}' 00232503-7e34-479a-b6fb-0b52e78b554e.txt | cut -f 1-3 | headRnu7-186P    24.3382    ACC-3Rnu2-41P    87.6752    ACC-3

然而,当我们将这段代码放入一个for循环中时,问题出现了。每次循环生成的随机数都是相同的:

for i in *.txt; do awk 'BEGIN{OFS=FS="t";}{ $2=100 * rand(); print $0;}' $i | cut -f 1-3 | head -n 2; echo "------------"; doneRnu7-186P    99.0514    ACC-3Rnu2-41P    82.4637    ACC-3------------Rnu7-186P    99.0514    ACC-3Rnu2-41P    82.4637    ACC-3------------Rnu7-186P    99.0514    ACC-3Rnu2-41P    82.4637    ACC-3------------

我们猜测这是因为每次循环中随机数生成器的种子都是相同的,导致每次生成的随机数也相同。为了解决这个问题,我们需要在每次循环中为随机数生成器设置一个不同的种子:

for i in `seq 1 3`; do awk -v seed=$RANDOM 'BEGIN{OFS=FS="t";srand(seed);}{ $2=100 * rand(); print $0;}' 00232503-7e34-479a-b6fb-0b52e78b554e.txt | cut -f 1-3 | head -n 2; echo "------------"; doneRnu7-186P    38.0502    ACC-3Rnu2-41P    76.7106    ACC-3------------Rnu7-186P    99.1498    ACC-3Rnu2-41P    65.7196    ACC-3------------Rnu7-186P    92.9258    ACC-3Rnu2-41P    24.0214    ACC-3------------

这确实是awk的一个陷阱。

随机数生成器的种子不仅在测试时使用,在许多其他情况下,如进行Kmeans聚类、WGCNA分析和随机森林分析时,也会涉及到随机过程。每次运行结果可能不同。为了保证结果的可重复性,我们可以设置一个随机数种子。设置种子的原则是:一旦种子确定,每次运行的结果就不会改变。

通常,种子是一个整数,任何整数都可以。在课程中,我通常建议大家选择自己的幸运数字作为种子。在R语言中,我们可以通过set.seed函数来设置种子:

如果我们不手动设置种子,大多数编程语言会使用当前的时间戳作为随机数种子。由于每次操作的时间不同,时间戳也不同,生成的随机数序列也会不同。

下面是一个R语言的示例,可以看到在未设置种子时,运行rnorm(5)两次得到的结果不同。而在设置种子为10后,两次运行rnorm(5)的结果完全一致。当然,这种设置只对最近的命令有效,之后再运行rnorm(5),又会基于时间戳生成不同的数据。

# 不设置种子rnorm(5)# [1]  1.1017795  0.7557815 -0.2382336  0.9874447  0.7413901rnorm(5)# [1]  0.08934727 -0.95494386 -0.19515038  0.92552126  0.48297852

set.seed(10)rnorm(5)

[1] 0.01874617 -0.18425254 -1.37133055 -0.59916772 0.29454513

set.seed(10)rnorm(5)

[1] 0.01874617 -0.18425254 -1.37133055 -0.59916772 0.29454513

rnorm(5)

[1] 0.3897943 -1.2080762 -0.3636760 -1.6266727 -0.2564784

关于随机数种子,虽然看起来简单,但在每次课程中,总有许多老师会问到这个问题,最常见的问题是“为什么你选择10作为随机数种子?有什么依据?我该如何选择?”实际上,只需记住两点:

同一个随机数种子会生成相同的随机数序列,无论这个种子是10、20还是30。随机数种子可以是任意值,选择时可以随意,看心情选择即可,课程中选择哪个也是随机的。

竟然被awk生成的随机数给整蒙了,也谈随机数生成种子

以上就是竟然被awk生成的随机数给整蒙了,也谈随机数生成种子的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/32012.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Mac玩‎《The Past Within Lite》教程:苹果电脑运行iOS游戏指南
上一篇 2025年11月4日 02:46:58
一加手机为什么卸载不了某些应用?解决系统限制的详细步骤
下一篇 2025年11月4日 02:48:38

相关推荐

  • 理解编程指令:当结果正确,但实现方式不符要求时

    本文探讨了在编程实践中,即使程序输出了正确的结果,但若其实现方式未能严格遵循既定指令,仍可能被视为“不正确”的问题。我们将通过具体示例,对比直接求和与累加求和两种实现策略,强调理解和遵守编程规范的重要性,以确保代码的健壮性、可维护性及符合项目要求。 在软件开发过程中,我们经常会遇到这样的情况:编写的…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • JS如何实现迭代器?迭代器协议

    JavaScript中实现迭代器需遵循可迭代协议和迭代器协议,通过定义[Symbol.iterator]方法返回具备next()方法的迭代器对象,从而支持for…of和展开运算符;该机制统一了数据结构的遍历接口,实现惰性求值,适用于自定义对象、树、图及无限序列等复杂场景,提升代码通用性与…

    2026年5月10日
    100
  • 三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布

    三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布

    6 月 15 日消息,据博主@肥威 今日爆料,搭载骁龙 8 Gen 3 领先版%ign%ignore_a_1%re_a_1%的新机即将发布,把之前的 for Galaxy 改成“for Everybody”。 Pic Copilot AI时代的顶级电商设计师,轻松打造爆款产品图片 158 查看详情 …

    2026年5月10日 用户投稿
    100
  • MySQL数据库不支持中文的解决办法

    接上一篇文章,在解决了mysql+flask环境配置问题之后,往数据库存中文字符串会报1366错误,提示不正确的字符。继而发现默认的mysql采用了latin1字符集,这种编码是不支持中文的。 如果想支持中文的话,需要设置一下mysql字符集。 众所周知utf-8是可以的,gbk也没问题,为了可扩展…

    用户投稿 2026年5月10日
    000
  • Golang使用Protobuf定义接口与消息格式

    Protobuf通过字段编号实现兼容性,新增字段可忽略、删除字段可保留编号,确保新旧版本互操作,支持服务独立演进。 在Golang项目中,利用Protobuf定义接口和消息格式,本质上是为服务间通信构建了一套高效、类型安全且跨语言的契约。它让数据结构清晰可见,RPC调用标准化,极大地简化了分布式系统…

    2026年5月10日
    000
  • 高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行

    高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行

    【环球网科技综合报道】10月17日消息,高通今日对 2023 骁龙峰会进行了预热,本次大会将以 %ign%ignore_a_1%re_a_1% 为主题,届时骁龙 8 gen 3 处理器也很大可能在本届峰会亮相。 在临近活动召开之日,相关业内人士也透露了高通骁龙8Gen3跑分及规格。据悉,高通骁龙8 …

    2026年5月10日 用户投稿
    000
  • HTML文档的基本结构是什么? 3分钟带你了解HTML文档基础框架

    html文档的基础结构由四部分组成:1. 声明,用于告知浏览器以html5标准模式解析页面,避免怪异模式导致的兼容性问题;2. 根元素,包裹整个文档内容,并可通过lang属性指定语言;3. 头部区域,包含元数据如设置字符编码、实现响应式布局、定义页面标题、引入css和favicon、加载脚本等;4.…

    2026年5月10日
    000
  • Android和iOS系统下,HTML+JS代码运行结果差异:为什么input宽度为0时,Android输入方向异常?

    Android和iOS系统HTML+JS代码运行差异分析:input宽度为0引发的Android输入方向异常 开发OTP输入组件时,我们发现一个有趣的现象:当input元素的宽度设置为0 (style=”width: 0;”)时,Android系统下的输入方向会异常,而iOS系统则正常工作。 移除w…

    2026年5月10日
    000
  • JavaScript设计原则_JavaScript可维护代码

    每个函数应只做一件事,如拆分数据处理与DOM操作,命名体现功能(如formatDate),长度控制在20行内;2. 使用清晰命名(如currentUser、isValid)减少注释依赖,关键逻辑注明“为什么”;3. 按功能模块化组织代码,如api.js处理请求,utils.js存放工具函数,使用im…

    2026年5月10日
    000
  • C++如何编译和链接_C++从源码到可执行文件的过程解析

    c++kquote>预处理展开宏和头文件,编译生成汇编代码,汇编转为机器码,链接合并目标文件与库生成可执行程序。 当你写完一段C++代码,比如一个简单的hello world程序,最终能运行起来,背后其实经历了一系列步骤:预处理、编译、汇编和链接。这个过程将人类可读的源码转换成机器可以执行的程…

    2026年5月10日
    000
  • Python继承中父类属性的初始化与访问策略

    本文深入探讨python面向对象编程中,子类如何正确初始化和访问父类属性。重点分析`super().__init__()`的工作原理,解释在继承链中参数传递的重要性,并提供通过子类构造函数传递参数的解决方案。此外,针对子类需要与特定父类实例交互的场景,文章还介绍了组合(composition)模式的…

    2026年5月10日
    000
  • javascript生命周期钩子是什么_组件有哪些关键阶段?

    JavaScript原生无生命周期钩子,这是Vue、React等框架为组件设计的机制;Vue按创建、挂载、更新、卸载四阶段提供对应钩子,React类组件有明确生命周期方法,函数组件则通过useEffect模拟,其核心价值在于精准控制执行时机以避免DOM操作错误和内存泄漏。 JavaScript 本身…

    2026年5月10日
    100
  • 解决PHP foreach循环中变量“继承”问题:理解与避免意外数据泄露

    本文探讨PHP foreach循环中一个常见的陷阱:当循环内部的数组或变量未被显式初始化时,其值可能会“继承”自上一次循环迭代,导致意外的数据泄露和逻辑错误。文章将深入分析这一现象的根源,并通过示例代码展示如何通过在每次迭代开始时正确初始化变量来解决此问题,确保代码行为的预期一致性。 引言:fore…

    2026年5月10日
    100
  • 为什么专注如此重要?

    在快节奏的数字时代,程序员能否保持专注直接影响着代码质量、项目进度和错误率。 高效专注,才能在开发过程中游刃有余。本文将分享一些实用技巧,助您提升编程专注力,高效完成任务。 专注力为何如此重要? 专注力是程序员的核心竞争力。编码需要高度集中,处理细节、逻辑和问题,稍一分神就可能导致错误百出,返工耗时…

    2026年5月10日
    000
  • Go语言:检查预编译库的构建版本与平台信息

    本文详细介绍了如何利用go语言内置的`go tool pack`工具,从预编译的go静态库(`.a`文件)中提取其构建信息,包括go编译器版本、操作系统和cpu架构。当`go build`因库版本不匹配而失败时,此方法能帮助开发者准确诊断问题,确保构建环境与库的兼容性。 在Go语言的开发实践中,我们…

    2026年5月10日
    000
  • JavaScript中逻辑AND运算符的语法陷阱解析

    本文深入探讨了javascript中逻辑and (`&&`) 运算符在特定场景下引发语法错误的原因。通过对比 `1 && {}` 和 `{} && 1` 两种表达式,揭示了javascript解析器对对象字面量 `{}` 的不同解释机制,特别是当 `{…

    2026年5月10日
    000
  • JavaScript中实时获取表单输入值:避免常见陷阱

    本教程深入探讨在javascript中如何正确地实时获取html表单输入框的值。许多开发者在初次尝试时可能遇到`alert`函数无法显示最新输入内容的问题,这通常是由于变量作用域和代码执行时机不当所致。文章将通过对比错误与正确的代码示例,详细解释其背后的原理,并提供最佳实践,确保您能够准确捕获用户在…

    2026年5月10日
    100
  • 如何在不暴露密钥的情况下,在客户端创建 Stripe Payment Link

    本文介绍了在纯静态网站环境下,如何利用 Stripe Payment Link 实现商品售卖,并着重讨论了在不暴露 Stripe 密钥的前提下,客户端创建 Payment Link 的可行性。分析了直接在客户端使用密钥的风险,并提出了预先生成 Payment Link 或使用后端服务动态生成 Pay…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信