Linux如何限制进程的资源使用

答案是使用cgroups机制限制Linux进程资源。通过systemd-run临时限制或修改systemd服务文件持久化配置,可控制CPU、内存、I/O、进程数等资源,避免单个进程耗尽系统资源,同时需注意OOM Killer、CPU配额过低等常见问题,结合监控与测试精细调整参数。

linux如何限制进程的资源使用

在Linux系统里,想给某个进程戴上“紧箍咒”,限制它的资源消耗,核心手段就是利用强大的cgroups(control groups)机制。它就像一个精密的管家,能把系统资源按需分配,防止单个进程“吃光”所有资源,影响其他服务的稳定运行。这不仅仅是为了系统稳定,很多时候也是为了实现公平调度和资源隔离,尤其是在容器化和多租户环境中,cgroups简直是基石般的存在。

解决方案

要限制Linux进程的资源使用,最直接且推荐的方式就是通过cgroups(控制组)。cgroups允许你将一组进程组织起来,并对这组进程的资源使用进行限制、审计和优先级管理。

从操作层面看,有两种主要途径:

使用

systemd-run

进行临时或一次性限制:这是最简单快捷的方式,尤其适合测试或启动一个临时服务。

systemd-run

命令能够将你的进程在一个临时的

scope

单元中运行,并直接应用cgroup参数。比如,你想运行一个CPU密集型任务,但不想它占用超过一半的CPU时间:

systemd-run --scope -p CPUQuota=50% /usr/bin/my_cpu_heavy_process

或者,限制内存使用在500MB以内:

systemd-run --scope -p MemoryLimit=500M /usr/bin/my_memory_hungry_app

这种方式的优点是即用即走,非常方便。

通过

systemd

服务单元文件进行持久化限制:对于需要长期运行的服务或应用程序,修改其

systemd

服务单元文件(

.service

文件)是最佳实践。在

[Service]

段落中添加或修改相应的资源限制参数即可。例如,编辑

/etc/systemd/system/my_service.service

[Unit]Description=My Custom Service[Service]ExecStart=/usr/local/bin/my_applicationCPUQuota=30%MemoryLimit=2GIOWeight=500# 其他资源限制...[Install]WantedBy=multi-user.target

保存后,执行

sudo systemctl daemon-reload

然后

sudo systemctl restart my_service

使配置生效。这种方式的限制是持久的,并且与服务的生命周期绑定,管理起来非常规范。

直接操作cgroup文件系统(较底层,不常用):虽然不推荐日常使用,但了解其原理很有帮助。cgroups是通过一个虚拟文件系统暴露的,通常挂载在

/sys/fs/cgroup

。你可以手动创建目录(cgroup),然后将进程的PID写入该cgroup的

tasks

文件,再通过写入对应子系统的参数文件来设置限制。比如,限制CPU份额:

sudo mkdir /sys/fs/cgroup/cpu/my_groupecho 100000 | sudo tee /sys/fs/cgroup/cpu/my_group/cpu.cfs_period_usecho 50000 | sudo tee /sys/fs/cgroup/cpu/my_group/cpu.cfs_quota_us # 50% CPUecho  | sudo tee /sys/fs/cgroup/cpu/my_group/tasks

这种方式复杂且容易出错,通常只在调试或特殊场景下使用,或者由容器运行时(如Docker、Kubernetes)在后台自动完成。

cgroups到底能精细化控制哪些资源维度?

说实话,刚开始接触cgroups时,我个人也觉得它有点像个“黑盒子”,但深入了解后会发现它能控制的资源维度远比想象中要丰富和精细。它不仅仅是简单地限制CPU或内存,而是提供了一整套子系统来管理不同类型的资源。

核心的资源子系统包括:

CPU子系统 (

cpu

cpu,cpuacct

): 这是最常用的。

cpu.shares

:设置CPU的相对权重。当系统CPU资源紧张时,权重高的cgroup会获得更多的CPU时间。比如,一个cgroup的

shares

是1024,另一个是512,那么在竞争时,前者会获得大约两倍的CPU时间。

cpu.cfs_period_us

cpu.cfs_quota_us

:这两个参数配合使用,可以实现更精确的CPU时间配额。

cfs_period_us

定义了一个调度周期(微秒),

cfs_quota_us

则定义了在这个周期内,该cgroup可以使用的CPU时间(微秒)。例如,

period=100000

(100ms),

quota=50000

(50ms),意味着该cgroup在一个100ms的周期内最多只能使用50ms的CPU时间,也就是50%的CPU。这对于限制单个进程的绝对CPU使用率非常有效。内存子系统 (

memory

):

memory.limit_in_bytes

:设置cgroup可用的最大内存(包括文件缓存)。一旦超出,系统可能会触发OOM(Out Of Memory)Killer来终止cgroup内的进程,或者根据

memory.swappiness

memory.failcnt

等参数进行处理。

memory.memsw.limit_in_bytes

:限制内存和交换空间的总和。

memory.swappiness

:控制该cgroup内进程的匿名内存和文件缓存的交换行为。I/O子系统 (

blkio

):

blkio.weight

:设置块设备的I/O权重,类似于CPU shares,决定了在I/O竞争时的相对优先级。

blkio.throttle.read_bps_device

blkio.throttle.write_bps_device

:可以对特定设备设置每秒读写字节数(BPS)的硬性限制。

blkio.throttle.read_iops_device

blkio.throttle.write_iops_device

:对特定设备设置每秒读写操作数(IOPS)的硬性限制。这在多租户环境,防止某个进程“刷爆”磁盘I/O时非常有用。PID子系统 (

pids

):

pids.max

:限制一个cgroup内可以创建的进程/线程总数。这能有效防止fork炸弹。设备子系统 (

devices

):

devices.allow

devices.deny

:控制cgroup内的进程是否可以访问特定的设备文件。这在安全隔离方面很有用。

网络资源方面,cgroups本身没有直接的“网络带宽”子系统。通常,网络流量的限制是通过

tc

(traffic control)工具结合

iptables

来完成的,但cgroups可以通过限制CPU和I/O间接影响网络吞吐量,因为网络处理也需要CPU和内存。不过,如果需要精确的网络带宽控制,还是得靠专门的网络工具。

搜狐资讯 搜狐资讯

AI资讯助手,追踪所有你关心的信息

搜狐资讯 24 查看详情 搜狐资讯

除了手动操作,Systemd如何优雅地管理进程资源限制?

我个人觉得,

systemd

在整合cgroups方面做得非常出色,它把原本复杂且分散的cgroup文件系统操作,封装成了一系列直观的服务单元配置参数。这大大降低了管理成本和出错率,尤其是在生产环境中,通过

systemd

来管理资源限制几乎成了标准做法。

systemd

主要通过两种方式实现:

服务单元文件(

.service

)中的资源参数:这是最常见、最推荐的方式。你可以在

[Service]

段落中直接设置一系列

systemd

特有的资源控制参数,

systemd

会在启动服务时,自动为该服务创建一个cgroup,并将这些参数应用到对应的cgroup子系统。例如:

CPUAccounting=yes

:启用CPU使用量统计。

CPUQuota=30%

:将CPU使用限制在30%。

CPUShares=512

:设置CPU相对权重。

MemoryAccounting=yes

:启用内存使用量统计。

MemoryLimit=2G

:限制内存使用为2GB。

MemorySwapMax=0

:禁止该服务使用交换空间。

IOAccounting=yes

:启用I/O统计。

IOWeight=500

:设置I/O权重。

TasksMax=100

:限制最大进程/线程数为100。

BlockIOWeight=600

:针对块设备的I/O权重。

BlockIODeviceWeight=/dev/sda 1000

:针对

/dev/sda

设备的I/O权重。

这些参数的命名非常直观,而且

systemd

会自动处理cgroup文件系统的底层细节,你只需要关注业务逻辑和资源需求。当你需要调整时,只需修改

.service

文件,然后

systemctl daemon-reload

systemctl restart

即可。这比手动创建目录、写入文件要优雅得多,也更易于维护和版本控制。

systemd-run

命令:前面也提到过,

systemd-run

systemd

提供的一个非常灵活的工具,它允许你在一个临时的

systemd

单元(通常是

scope

单元)中运行一个命令,并为其应用资源限制。这在需要快速测试某个进程的资源消耗,或者运行一个一次性、但又不想它“失控”的任务时,特别方便。比如,我经常用它来测试一些新的脚本或编译任务,防止它们意外占用过多资源,影响我正在进行的其他工作。

# 运行一个命令,并限制其CPU使用不超过20%,内存不超过1GBsystemd-run --scope -p CPUQuota=20% -p MemoryLimit=1G my_script.sh arg1 arg2

systemd-run

的强大之处在于它能创建各种类型的

systemd

单元,并能与所有

systemd

的资源控制参数无缝集成。这使得它成为日常运维和开发中一个不可或缺的工具。

资源限制配置不当,可能踩到哪些坑,又该如何排查?

配置资源限制这事儿,虽然能带来很多好处,但如果做得不够精细或者缺乏充分测试,那可真是一不小心就会“踩坑”。我个人就遇到过好几次因为资源限制配置不当,导致服务看似正常运行,实则效率低下,甚至直接崩溃的情况。

常见的坑和排查思路:

OOM Killer频繁出动(内存限制过低):这是最常见的。你可能给一个内存需求不明确的服务设置了过低的

MemoryLimit

。服务启动时一切正常,但在高负载或长时间运行后,内存逐渐增长,最终达到上限,Linux内核的OOM Killer就会无情地将进程杀死。

排查: 检查系统日志(

journalctl -xe

/var/log/messages

),通常会看到“Out of memory: Kill process…”的字样,明确指出哪个进程被杀以及原因。同时,可以通过

systemctl status my_service

查看服务的状态,如果经常重启,且退出码异常,很可能就是OOM。解决: 逐步调高

MemoryLimit

,并结合

free -h

top

htop

等工具,在高负载下观察服务实际的内存使用峰值,留出一定的余量。

cgroup

的内存统计文件

/sys/fs/cgroup/memory//memory.usage_in_bytes

也能提供精确的数据。

服务响应缓慢,CPU利用率“假性”不高(CPUQuota限制过低):你可能给一个计算密集型服务设置了

CPUQuota=20%

,结果服务虽然没崩溃,但用户抱怨响应慢得像蜗牛。你用

top

一看,总CPU利用率可能不高,但你的服务进程的CPU使用率也上不去,被硬性限制住了。

排查: 观察

systemctl status my_service

,可能会看到

CPUQuota

相关的告警。更直接的是查看cgroup的CPU统计文件:

/sys/fs/cgroup/cpu//cpu.stat

。里面的

nr_throttled

throttled_time

字段会告诉你进程因为达到CPU配额而被限制了多少次和多长时间。如果这两个值很高,那基本就是CPU限制太紧了。解决: 同样是逐步调高

CPUQuota

,直到服务性能满足要求。

磁盘I/O成为瓶颈(

blkio

限制过严):特别是在数据库或日志服务中,如果

blkio

*_bps_device

*_iops_device

设置得太低,会导致磁盘读写速度跟不上,进而影响整个服务的响应速度。

排查: 使用

iostat -xz 1

atop

等工具观察磁盘I/O性能。如果发现某个磁盘的

%util

很高,但

r/s

w/s

(IOPS)或者

rKB/s

wKB/s

(BPS)却远低于磁盘的实际能力,那就要怀疑是

blkio

限制在作祟。同样,可以查看cgroup的

blkio

统计文件,例如

/sys/fs/cgroup/blkio//blkio.throttle.io_service_bytes

等。解决: 根据实际I/O需求,调整

blkio

的限制参数。

进程数超限导致服务无法启动或异常(

TasksMax

限制):有些应用程序会创建大量的线程或子进程。如果

TasksMax

设置得太小,服务可能在启动阶段就因为无法创建足够的进程而失败,或者在高并发时无法处理新的请求。

排查: 查看服务启动日志或

journalctl -xe

,可能会有“fork failed”或“resource temporarily unavailable”等错误信息。解决: 评估服务在高负载下所需的进程/线程数,并适当调高

TasksMax

通用排查建议:

从小到大,逐步调整: 永远不要一开始就设置一个非常激进的限制。从一个宽松的限制开始,然后逐步收紧,观察服务行为。结合监控: 部署合适的监控系统(如Prometheus + Grafana)来收集cgroup的各种指标,这能让你更直观地看到资源使用趋势和限制效果。压力测试: 在应用资源限制后,进行充分的压力测试,模拟真实世界的负载,才能发现潜在的问题。理解应用程序: 真正理解你的应用程序的资源需求模式是关键。它是CPU密集型?内存密集型?还是I/O密集型?这决定了你应该重点关注哪个cgroup子系统。

总的来说,资源限制是一把双刃剑,用好了能让系统更稳定、更高效,用不好则可能带来新的麻烦。细致的观察、充分的测试和对cgroups机制的深入理解,是避免这些坑的关键。

以上就是Linux如何限制进程的资源使用的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/432664.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Win10怎么找到ATA控制器?
上一篇 2025年11月7日 14:50:25
外卖APP开发:如何创建自己的外卖平台?
下一篇 2025年11月7日 14:50:31

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    1000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    000
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    000
  • 网站标题关键词更新后,搜索引擎为何仍显示旧标题?

    网站标题更新后,搜索引擎为何显示旧标题? 网站SEO优化中,站长常修改网站标题关键词,期望搜索结果显示自定义标题。然而,即使更新标签、meta keywords、meta description和结构化数据中的name属性后,搜索结果仍显示旧标题,这令人费解。本文将对此进行解释。 问题:站长修改了网…

    2026年5月10日
    100
  • 深入理解 Express.js 中 next() 参数的作用与中间件机制

    本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…

    2026年5月10日
    000
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • Debian Copilot的社区活跃度如何

    debian copilot是codeberg社区维护的ai助手,旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据,但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况: Debian拥有详尽的…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信