要监控Linux服务的运行时间和负载,需选择合适的工具并配置监控与告警。首先明确监控目标如Web或数据库服务,然后选用top、ps、sar等命令行工具或Prometheus、Grafana、Nagios等系统级方案。使用top可实时查看CPU和内存占用;ps结合grep和STIME可查进程启动时间;sar能周期性收集CPU、内存、I/O数据并分析历史趋势;systemd-analyze用于查看systemd服务启动耗时。对于高级监控,部署Prometheus配合Node Exporter采集指标,Grafana实现可视化,并配置告警规则以及时响应异常。最终通过数据分析识别性能瓶颈,保障服务稳定运行。

要监控Linux服务的运行时间和负载,可以使用多种工具和方法,从简单的命令行工具到更复杂的监控系统。核心在于收集关键指标,并根据这些指标进行分析和告警。
解决方案
监控Linux服务的运行时间和负载,可以采取以下步骤:
确定需要监控的服务: 明确需要监控哪些服务,例如 Web 服务器(如 Apache 或 Nginx)、数据库服务器(如 MySQL 或 PostgreSQL)等。
选择监控工具: 根据需求选择合适的监控工具。常用的工具有:
top
/
htop
: 实时查看系统资源使用情况。
uptime
: 查看系统运行时间和平均负载。
ps
: 查看进程信息,包括运行时间。
vmstat
: 虚拟内存统计。
iostat
: I/O 统计。
sar
: 系统活动报告工具,可以收集和报告各种系统资源的使用情况。
systemd-analyze
: 如果服务由 systemd 管理,可以使用此工具分析启动时间。Prometheus + Grafana: 强大的监控解决方案,适用于大规模系统。Nagios / Zabbix: 常用的监控系统,可以监控各种服务和主机。
配置监控: 根据选择的工具,配置相应的监控参数。例如,使用
sar
收集 CPU、内存、磁盘 I/O 等数据,并设置收集频率。对于 Prometheus,需要配置 exporter 来暴露服务的指标。
分析数据: 收集到的数据需要进行分析,以了解服务的运行状况。例如,查看 CPU 使用率是否过高,内存使用量是否接近上限,磁盘 I/O 是否频繁。
设置告警: 根据分析结果,设置告警阈值。当某个指标超过阈值时,发送告警通知。例如,当 CPU 使用率超过 90% 时,发送邮件或短信告警。

如何使用
top
命令监控服务负载?
top
命令提供了一个动态的、实时的系统视图。它显示了系统中运行的进程列表,以及 CPU 使用率、内存使用率等信息。你可以使用
top
命令来快速了解哪些进程占用了最多的资源。
运行
top
命令: 在终端输入
top
并回车。
观察输出:
top
命令的输出分为几个部分:
第一行: 显示系统运行时间、当前用户数、平均负载等信息。平均负载是指在过去 1 分钟、5 分钟和 15 分钟内的平均进程数。第二行: 显示任务(进程)的总数、运行中、睡眠中、停止中和僵尸进程的数量。第三行: 显示 CPU 的使用率,包括用户态、系统态、空闲、等待 I/O 等。第四行: 显示物理内存的使用情况,包括总内存、已用内存、空闲内存、缓存内存。第五行: 显示交换空间的使用情况。进程列表: 显示各个进程的详细信息,包括 PID(进程 ID)、USER(用户)、PR(优先级)、NI(nice 值)、VIRT(虚拟内存)、RES(常驻内存)、SHR(共享内存)、S(进程状态)、%CPU(CPU 使用率)、%MEM(内存使用率)、TIME+(CPU 时间)、COMMAND(命令)。
查找目标服务: 在进程列表中查找你需要监控的服务。你可以使用
grep
命令过滤
top
的输出,例如
top | grep nginx
可以查找所有包含 “nginx” 关键字的进程。
分析资源占用: 观察目标服务的 CPU 使用率(%CPU)和内存使用率(%MEM)。如果 CPU 使用率过高,可能表明服务正在处理大量的请求或存在性能问题。如果内存使用率过高,可能表明服务存在内存泄漏或需要更多的内存。
使用
top
的交互命令:
top
命令提供了一些交互命令,可以帮助你更好地监控系统。例如:
M
: 按内存使用率排序。
P
: 按 CPU 使用率排序。
k
: 杀死进程。
q
: 退出
top
。
如何使用
ps
命令查看服务的运行时间?
ps
命令用于显示当前进程的快照。它可以显示进程的 PID、用户、CPU 使用率、内存使用率、运行时间等信息。使用
ps
命令可以查看服务的启动时间和运行时间。
运行
ps
命令: 使用以下命令查看指定服务的进程信息:
ps -ef | grep
将
替换为你要监控的服务名称。例如,要查看 nginx 服务的进程信息,可以使用以下命令:
ps -ef | grep nginx
观察输出:
ps
命令的输出包含多个列,其中一些重要的列包括:
UID
: 运行进程的用户 ID。
PID
: 进程 ID。
PPID
: 父进程 ID。
C
: CPU 使用率。
STIME
: 进程启动时间。
TTY
: 进程运行的终端。
TIME
: 进程使用的 CPU 时间。
CMD
: 运行的命令。
分析运行时间:
STIME
列显示进程的启动时间。如果进程已经运行了很长时间,
STIME
列可能会显示日期而不是时间。
TIME
列显示进程使用的 CPU 时间。这个时间表示进程实际占用 CPU 的时间,而不是进程的运行总时间。
计算运行总时间: 要计算进程的运行总时间,可以使用以下方法:
查看启动时间: 从
STIME
列获取进程的启动时间。获取当前时间: 使用
date
命令获取当前时间。计算时间差: 计算当前时间与启动时间之间的时间差。可以使用
date
命令的格式化选项来简化计算。例如:
start_time=$(ps -eo lstart | grep | head -n 1)current_time=$(date)echo "Start Time: $start_time"echo "Current Time: $current_time"
然后手动计算时间差。或者,你可以使用
date
命令的
-d
选项和
+%s
格式化选项将时间转换为 Unix 时间戳,然后计算时间戳的差值。

如何使用
sar
命令监控系统负载?
sar
(System Activity Reporter)是一个强大的系统活动报告工具。它可以收集和报告各种系统资源的使用情况,包括 CPU、内存、磁盘 I/O、网络等。
sar
命令可以帮助你了解系统的整体负载情况,并找出性能瓶颈。
安装
sar
:
sar
命令通常包含在
sysstat
软件包中。使用以下命令安装
sysstat
:
sudo apt-get updatesudo apt-get install sysstat
或者,在 CentOS/RHEL 上:
sudo yum install sysstat
配置
sar
:
sar
的配置文件通常位于
/etc/default/sysstat
。你可以修改此文件来配置
sar
的收集频率和保存时间。
ENABLED="true"
: 启用
sar
。
SADC_OPTIONS="-S ALL"
: 收集所有统计信息。
HISTORY=28
: 保存 28 天的历史数据。
运行
sar
命令:
sar
命令的基本语法如下:
sar [options] [interval] [count]
options
: 指定要收集的统计信息类型。
interval
: 指定收集数据的间隔时间(秒)。
count
: 指定收集数据的次数。
一些常用的
sar
命令示例:
查看 CPU 使用率:
sar -u 1 5
每 1 秒收集一次 CPU 使用率数据,共收集 5 次。
查看内存使用情况:
sar -r 1 5
每 1 秒收集一次内存使用情况数据,共收集 5 次。
查看磁盘 I/O 情况:
sar -d 1 5
每 1 秒收集一次磁盘 I/O 情况数据,共收集 5 次。
查看网络流量:
sar -n DEV 1 5
每 1 秒收集一次网络流量数据,共收集 5 次。
分析数据:
sar
命令的输出包含多个列,你需要根据不同的统计信息类型来分析这些列。
CPU 使用率 (
sar -u
):
%user
: 用户态 CPU 使用率。
%system
: 系统态 CPU 使用率。
%iowait
: 等待 I/O 的 CPU 使用率。
%idle
: 空闲 CPU 使用率。
如果
%user
或
%system
过高,可能表明 CPU 负载过重。如果
%iowait
过高,可能表明磁盘 I/O 存在瓶颈。
内存使用情况 (
sar -r
):
kbmemfree
: 空闲内存大小(KB)。
kbmemused
: 已用内存大小(KB)。
%memused
: 已用内存百分比。
kbbuffers
: 缓冲区使用的内存大小(KB)。
kbcached
: 缓存使用的内存大小(KB)。
如果
%memused
过高,可能表明内存不足。
磁盘 I/O 情况 (
sar -d
):
tps
: 每秒传输次数。
rd_sec/s
: 每秒读取的扇区数。
wr_sec/s
: 每秒写入的扇区数。
await
: 平均 I/O 等待时间(毫秒)。
svctm
: 平均 I/O 服务时间(毫秒)。
%util
: 磁盘利用率。
如果
await
过高,可能表明磁盘 I/O 存在瓶颈。如果
%util
接近 100%,可能表明磁盘已经饱和。
使用
sadc
收集数据:
sar
命令依赖于
sadc
(System Activity Data Collector)来收集数据。
sadc
通常由 cron 任务定期运行,并将数据保存到文件中。你可以使用
sar
命令来查看这些历史数据。
sar -f /var/log/sysstat/saXX
将
XX
替换为要查看的日期。例如,要查看 2023 年 10 月 27 日的数据,可以使用以下命令:
sar -f /var/log/sysstat/sa27
如何使用 Prometheus 和 Grafana 监控服务?
Prometheus 和 Grafana 是一个强大的监控解决方案,特别适用于大规模系统。Prometheus 用于收集和存储指标数据,Grafana 用于可视化这些数据。
安装 Prometheus: 从 Prometheus 官网下载最新版本的 Prometheus,并解压到指定目录。
wget https://github.com/prometheus/prometheus/releases/download/v2.47.0/prometheus-2.47.0.linux-amd64.tar.gztar -xzf prometheus-2.47.0.linux-amd64.tar.gzcd prometheus-2.47.0.linux-amd64
配置 Prometheus: 编辑
prometheus.yml
文件,配置 Prometheus 的监控目标。
global: scrape_interval: 15s evaluation_interval: 15sscrape_configs: - job_name: 'linux' static_configs: - targets: ['localhost:9100'] - job_name: 'prometheus' static_configs: - targets: ['localhost:9090']
这个配置文件定义了两个监控目标:
linux
和
prometheus
。
linux
目标监控
localhost:9100
,这是 Node Exporter 的默认端口。
prometheus
目标监控
localhost:9090
,这是 Prometheus 自身的端口。
安装 Node Exporter: Node Exporter 用于暴露 Linux 系统的各种指标,例如 CPU 使用率、内存使用率、磁盘 I/O 等。从 Prometheus 官网下载最新版本的 Node Exporter,并解压到指定目录。
wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gztar -xzf node_exporter-1.6.1.linux-amd64.tar.gzcd node_exporter-1.6.1.linux-amd64
启动 Prometheus 和 Node Exporter: 分别启动 Prometheus 和 Node Exporter。
./prometheus --config.file=prometheus.yml./node_exporter
安装 Grafana: 从 Grafana 官网下载最新版本的 Grafana,并安装到指定目录。
wget https://dl.grafana.com/oss/release/grafana_10.1.5_amd64.debsudo dpkg -i grafana_10.1.5_amd64.debsudo systemctl start grafana-server
配置 Grafana: 打开 Grafana 的 Web 界面(默认端口为 3000),并添加 Prometheus 数据源。
Data Sources: Configuration -> Data Sources -> Add data sourceSelect Prometheus: 选择 Prometheus 作为数据源类型。URL: 输入 Prometheus 的地址(例如
http://localhost:9090
)。
创建 Grafana 仪表盘: 创建 Grafana 仪表盘,并添加各种图表来可视化 Prometheus 收集的指标数据。你可以使用现有的仪表盘模板,也可以自定义仪表盘。
Create: Create -> Dashboard -> ImportImport via grafana.com: 输入仪表盘模板的 ID(例如
1860
是 Node Exporter 的仪表盘模板)。
配置服务 Exporter: 对于需要监控的服务,你需要安装相应的 Exporter 来暴露服务的指标。例如,对于 MySQL,你可以使用 MySQL Exporter。对于 Nginx,你可以使用 Nginx Exporter。
下载 Exporter: 从 Prometheus 官网或 GitHub 下载相应的 Exporter。配置 Exporter: 根据 Exporter 的文档配置 Exporter。启动 Exporter: 启动 Exporter。配置 Prometheus: 在
prometheus.yml
文件中添加 Exporter 的监控目标。重启 Prometheus: 重启 Prometheus 以加载新的配置。
如何监控 systemd 管理的服务的运行时间?
如果服务由 systemd 管理,可以使用
systemd-analyze
命令来分析服务的启动时间。
查看服务启动时间:
systemd-analyze blame
这个命令会列出所有 systemd 单元的启动时间,并按启动时间排序。
查看指定服务的启动时间:
systemd-analyze blame
将
替换为你要监控的服务名称。例如,要查看 nginx 服务的启动时间,可以使用以下命令:
systemd-analyze blame nginx.service
查看服务启动过程的详细信息:
systemd-analyze critical-chain
这个命令会显示服务启动过程中各个步骤的依赖关系和耗时。
查看服务的状态:
systemctl status
这个命令会显示服务的状态信息,包括启动时间、运行时间、进程 ID 等。
通过结合使用这些工具和方法,你可以全面地监控 Linux 服务的运行时间和负载,及时发现和解决性能问题。
以上就是Linux如何监控服务的运行时间和负载的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/201770.html
微信扫一扫
支付宝扫一扫