排查线上问题的9种方式

德国科技管理专家斯坦门茨早年移居美国,以其卓越才能在美国企业界崭露头角。有一次,福特公司的一组电机发生故障,公司在束手无策时请来了斯坦门茨。

斯坦门茨仔细观察电机,经过一番计算后,用粉笔在电机外壳上画了一条线,说:“从这里打开,把里面的线圈减少16圈。”工人们按照他的指示操作,电机果然恢复正常。福特公司支付酬金时,斯坦门茨索要了一万美元。

公司老板认为一条线要价一万美元太过昂贵。斯坦门茨回应:“用粉笔画一条线只需一美元,而知道在哪里画需要9999美元。”老板认为有理,最终支付了一万美元。

这个励志故事告诉我们,排查问题的重要价值不容小觑。今天我们就来总结一下排查问题的9种方法:

基础方法

监控告警

排查线上问题的9种方式问题发生时常用的手段包括生产测试、监控告警和人工客诉。人工客诉是我们最不愿意看到的,因此需要在业务受影响前及早发现。监控告警是发现问题的有效手段,具体可参考《通知&告警治理(降噪)的7种方法》这篇文章。

日志埋点

埋点是了解用户行为的重要步骤,但更重要的目的是识别用户的关键路径。通过注入特定的代码来记录关键指标,是提升应用性能的重要步骤。

日志和埋点之间存在细微差别。埋点可以看作是日志的子集,任何被埋点的数据都应该记录在日志中。

埋点负责发布关键性能数据以进行聚合分析,日志则提供了用户在不同级别跟踪应用的细节信息,从低到高依次为:

Verbose:几乎提供了所有细节,主要用于跟踪执行过程中的控制流Debug:表示数据主要用于调试Info:表示非错误信息Warning:表示可恢复的错误Error:表示不可恢复的错误日志的记录会贯穿应用的整个生命周期,而埋点只应在开发的特定阶段使用。通过埋点,可以收集特定类型或有价值的信息素材,基于这些素材可以进行许多有价值的分析和追踪。

问题复现

这个无需多解释,我们来聊聊复现的步骤:

● 确保所有步骤都被记录。记录下所做的每一件事、每一个步骤、每一个停顿。无意间丢失一个步骤或增加一个多余步骤,可能导致无法再现软件缺陷。在尝试运行测试用例时,可以利用录制工具准确记录执行步骤。所有目标是确保导致软件缺陷所需的全部细节是可见的。● 特定条件和时间。软件缺陷仅在特定时刻出现吗?软件缺陷在特定条件下产生吗?产生软件缺陷时网络是否繁忙?在较差和较好的硬件设备上运行测试用例会有不同的结果吗?● 压力和负荷、内存和数据溢出相关的边界条件。执行某个测试能导致产生缺陷的数据被覆盖,而只有在试图使用脏数据时才会再现。在重启BUG复现方法总结机器后,软件缺陷消失,当执行其他测试之后又出现这类软件缺陷,需要注意某些软件缺陷可能是在无意中产生的。

● 考虑资源依赖性,包括内存、网络和硬件共享的相互作用等。软件缺陷是否仅在运行其他软件并与其他硬件通信的“繁忙”系统上出现?软件缺陷可能最终证实与硬件资源、网络资源有相互作用,审视这些影响有利于分离和再现软件缺陷。● 不能忽视硬件。与软件不同,硬件按预定方式工作。板卡松动、内存条损坏或CPU过热都可能导致像是软件缺陷的失败。设法在不同硬件上再现软件缺陷。在执行配置或兼容性测试时特别重要。判定软件缺陷是在一个系统上还是在多个系统上产生。

抓包分析

tcpdump命令配合Wireshark等解析工具可对网络问题进行初步排查。比如http请求是明文传输,可以抓到完整的请求内容。但如果是加密的,至少可以看到有没有RST等异常。或者原本应该观察到的返回包有没有,判断是哪个链路出的问题。

排查线上问题的9种方式这需要对网络知识有较深的了解。可通过《网络通信知识地图》进行学习,特别是《白话TCP/IP原理》要了解。

高危方法

linux命令

有些命令危险性不高,比如TOP,使用方法可参考:《时刻掌握系统运行状态-深度理解top命令》。但是在线上不能随便使用。比如程序正在写一个文件,这时用命令行执行vim,可能导致fd文件描述符失效。关于文件描述符可参考《白话linux操作系统原理》或《趣谈IO多路复用的本质》。

感兴趣的朋友甚至可以自己实现一下fd文件描述符失效:

第一步:进程打开日志文件,使用lsof -p pid

简篇AI排版 简篇AI排版

AI排版工具,上传图文素材,秒出专业效果!

简篇AI排版 554 查看详情 简篇AI排版

第二步:vim没打开文件前(或者打开vim没进行wq保存)

第三步:当vim修改文件后wq时,会提示

排查线上问题的9种方式提示文件在读期间被修改了,我们选择yes

第四步:此时再使用lsof -p pid命令来查看打开的文件描述符,进程打开的文件描述符的状态变为了deleted状态。

linux命令可以作为排查问题的利器,比如我在《懂得三境界-使用dubbo时请求超过问题》里提到的netstat -s,但要注意不要对线上造成影响。

下面用图来总结常用命令使用场景,图小需要手工放大看:

排查线上问题的9种方式排查线上问题的9种方式排查线上问题的9种方式留后门法

很久之前我们使用Redis,但管理端做的不太好,我就在程序里留了后门:可以通过http接口对Redis进行增删改查操作。但是用http接口做管理,意味着没有标准的权限控制和操作标准流程,很容易受到攻击或误操作。

更正统的方法是使用标准的运维工具代替这些后门。

线上调试

举个例子,有次我们在进行测试环境演练,出现了个怪异的问题。后来有同事说另一个同事也在用这个环境做调试,所以才会调用那个接口的地方卡住,出现问题。这种问题要是出现在线上,就是故障了。

高级方法

代码走查

排查问题的最高境界是只通过review代码来发现问题。

逻辑推理

但很多大神的解决步骤是:第一,听别人讲述问题现象;第二,提出问题以求证;第三,推理出大致原因并给出可选方案及方案的注意点;第四,自己、更多情况下是他人进行验证。为啥是他人,能达到这种境界多是领导或帮别人排查问题的救火队长,问题发生和自己并没有直接关系。

想达到这种境界还是需要平时的积累和深入理解和深耕。源码和网络知识学起来~~

总结

一张图总结今天介绍的方法:

排查线上问题的9种方式

以上就是排查线上问题的9种方式的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/455462.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 01:12:57
下一篇 2025年11月8日 01:14:17

相关推荐

  • uniapp 中图片加载显示灰块,如何排查问题?

    uniapp 图片加载灰块问题排查 在 uniapp 中使用 image 组件时,可能会遇到图片加载不出来的情况,显示为灰色的占位区块。导致此问题的主要原因是: base64 代码不正确 使用 base64 编码加载图片时,如果编码有误,浏览器将无法正确解析和渲染图片。这会导致出现灰色的占位块。 解…

    2025年12月24日
    000
  • Bear 博客上的浅色/深色模式分步指南

    我最近使用偏好颜色方案媒体功能与 light-dark() 颜色函数相结合,在我的 bear 博客上实现了亮/暗模式切换。 我是这样做的。 第 1 步:设置 css css 在过去几年中获得了一些很酷的新功能,包括 light-dark() 颜色函数。此功能可让您为任何元素指定两种颜色 &#8211…

    2025年12月24日
    100
  • 如何在 Web 开发中检测浏览器中的操作系统暗模式?

    检测浏览器中的操作系统暗模式 在 web 开发中,用户界面适应操作系统(os)的暗模式设置变得越来越重要。本文将重点介绍检测浏览器中 os 暗模式的方法,从而使网站能够针对不同模式调整其设计。 w3c media queries level 5 最新的 web 标准引入了 prefers-color…

    2025年12月24日
    000
  • 如何使用 CSS 检测操作系统是否处于暗模式?

    如何在浏览器中检测操作系统是否处于暗模式? 新发布的 os x 暗模式提供了在 mac 电脑上使用更具沉浸感的用户界面,但我们很多人都想知道如何在浏览器中检测这种设置。 新标准 检测操作系统暗模式的解决方案出现在 w3c media queries level 5 中的最新标准中: 立即学习“前端免…

    2025年12月24日
    000
  • 如何检测浏览器环境中的操作系统暗模式?

    浏览器环境中的操作系统暗模式检测 在如今科技的海洋中,越来越多的设备和软件支持暗模式,以减少对眼睛的刺激并营造更舒适的视觉体验。然而,在浏览器环境中检测操作系统是否处于暗模式却是一个令人好奇的问题。 检测暗模式的标准 要检测操作系统在浏览器中是否处于暗模式,web 开发人员可以使用 w3c 的媒体查…

    2025年12月24日
    200
  • 浏览器中如何检测操作系统的暗模式设置?

    浏览器中的操作系统暗模式检测 近年来,随着用户对夜间浏览体验的偏好不断提高,操作系统已开始引入暗模式功能。作为一名 web 开发人员,您可能想知道如何检测浏览器中操作系统的暗模式状态,以相应地调整您网站的设计。 新 media queries 水平 w3c 的 media queries level…

    2025年12月24日
    000
  • 如何在 VS Code 中解决折叠代码复制问题?

    解决 VS Code 折叠代码复制问题 在 VS Code 中使用折叠功能可以帮助组织长代码,但使用复制功能时,可能会遇到只复制可见部分的问题。以下是如何解决此问题: 当代码被折叠时,可以使用以下简单操作复制整个折叠代码: 按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

    2025年12月24日
    000
  • 我在学习编程的第一周学到的工具

    作为一个刚刚完成中学教育的女孩和一个精通技术并热衷于解决问题的人,几周前我开始了我的编程之旅。我的名字是OKESANJO FATHIA OPEYEMI。我很高兴能分享我在编码世界中的经验和发现。拥有计算机科学背景的我一直对编程提供的无限可能性着迷。在这篇文章中,我将反思我在学习编程的第一周中获得的关…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • css中文手册当前页面发生错误怎么办

    发生“当前页面发生错误”错误时,请依次尝试:检查网络连接;刷新页面;清除浏览器缓存;禁用浏览器扩展;检查浏览器版本;联系网站管理员;尝试其他浏览器;查看浏览器控制台。 CSS 中文手册当前页面发生错误怎么办 当您在使用 CSS 中文手册时遇到当前页面发生错误的情况,可以采用以下步骤进行排查和解决: …

    2025年12月24日
    000
  • Redis3.2开启远程访问详细步骤

    redis是一个开源的使用ansi c语言编写、支持网络、可基于内存亦可持久化的日志型、key-value数据库,并提供多种语言的api。redis支持远程访问,详细步骤小编已为大家整理出来了,具体步骤如下: redis默认只允许本地访问,要使redis可以远程访问可以修改redis.conf打开r…

    好文分享 2025年12月24日
    000
  • Redis配置文件redis.conf详细配置说明

    本文列出了redis的配置文件redis.conf的各配置项的详细说明,简单易懂,有需要的盆友可以参考哦。 redis.conf 配置项说明如下 redis配置文件详解 # vi redis.confdaemonize yes #是否以后台进程运行pidfile /var/run/redis/red…

    好文分享 2025年12月24日
    000
  • 响应式HTML5按钮适配不同屏幕方法【方法】

    实现响应式HTML5按钮需五种方法:一、CSS媒体查询按max-width断点调整样式;二、用rem/vw等相对单位替代px;三、Flexbox控制容器与按钮伸缩;四、CSS变量配合requestAnimationFrame优化的JS动态适配;五、Tailwind等框架的响应式工具类。 如果您希望H…

    2025年12月23日
    000
  • 如何查看编写的html_查看自己编写的HTML文件效果【效果】

    要查看HTML文件的浏览器渲染效果,需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。 如果您编写了HTML代码,但无法直观看到其在浏览器中的实际渲染效果,则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

    2025年12月23日
    400
  • html5怎么设置单选_html5用input type=”radio”加name设单选按钮组【设置】

    HTML5 使用 type=”radio” 实现单选功能,需统一 name 值构成互斥组;通过 checked 设默认项;可用 CSS 隐藏原生控件并自定义样式;推荐用 fieldset/legend 增强语义;required 可实现必填验证。 如果您希望在网页中创建一组互…

    2025年12月23日
    200
  • node.js怎么运行html_node.js运行html步骤【指南】

    答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应;其次用Express初始化项目并配置静态文件服务;最后利用serve工具全局安装后一键启动服务器,三种方式均在浏览器访…

    2025年12月23日
    300
  • html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

    需直接编辑核心JavaScript代码或替换图片、音频等资源文件;先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件,再搜索score++、if (health等逻辑片段进行修改。 如果您下载了某个HTML5游戏的本地文件,希望调整其玩法逻辑或替换资源以改变视觉效果…

    2025年12月23日
    000
  • html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

    在HTML5中实现图片重叠需结合CSS定位与层叠控制:一、用position:absolute+top/left精确定位,父容器设position:relative;二、用z-index设定堆叠顺序(需已定位);三、用transform:translate()实现无文档流干扰的偏移重叠;四、用CSS…

    2025年12月23日
    200
  • html5怎么设置月份_HTML5用input type=”month”让用户选择年月月份【设置】

    HTML5的input type=”month”提供原生年月选择器,格式为“YYYY-MM”,支持value默认值、min/max范围限制、name表单提交,并需JavaScript降级兼容旧浏览器。 如果您希望在网页中提供一个简洁的年月选择控件,HTML5 的 input …

    2025年12月23日
    200
  • html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

    HTML5网站搭建需五步:一、建my-website目录及css/js/images子目录,含index.html;二、写标准HTML5骨架,含DOCTYPE、lang、meta、语义化标签;三、外链CSS与defer/async脚本;四、用http-server启本地服务;五、用email/num…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信