15%

全场主机优惠15%

测试技能,享折扣

使用代码:

Skills
开始使用
12.12.2023

操作系统中的进程饥饿:原因、机制与生产级解决方案

进程饥饿发生在某个进程被无限期地剥夺其运行所需的CPU时间、内存或I/O带宽时——并非因为资源不存在,而是因为调度策略持续偏向其他进程。与死锁不同(死锁中所有竞争进程均被阻塞),饥饿使系统表面上看起来正常运行,却在悄无声息地降低或停止特定工作负载的执行。

这一区别在运维层面至关重要:一个处于饥饿状态的进程在内核层面不会产生任何错误,不会生成崩溃转储,也可能不会触发标准告警阈值——这使其成为多租户和高并发服务器环境中最难以察觉的性能故障之一。

饥饿在内核层面的真实含义

这一术语借鉴自资源生态学:当一个进程在有限资源的竞争中持续处于劣势时,它便会”饥饿”。在现代操作系统中,Linux的完全公平调度器(CFS)、Windows NT优先级队列以及BSD ULE调度器均实现了防止饥饿的机制——然而在特定条件下,生产环境中仍会出现饥饿现象。

在内核层面,饥饿表现为某个进程的虚拟运行时间(CFS术语)或等待时间无限增长,却始终未被选中执行。该进程保持在TASK_RUNNING状态——它已就绪且符合调度条件——但调度器始终不为其分配CPU时间片,因为优先级更高或运行频率更高的任务总是抢先执行。

关键技术区别:

  • 死锁:两个或多个进程相互阻塞,各自等待对方持有的资源,这些任务的系统进度为零。
  • 饥饿:一个或多个进程被调度器持续跳过,其他进程正常运行。
  • 活锁:进程未被阻塞,但持续响应彼此而改变状态,却没有实质性进展。

进程饥饿的根本原因

理解饥饿需要审视产生它的具体机制,而不仅仅是将”资源有限”列为原因。

1. 无老化机制的静态优先级反转

大多数基于优先级的调度器为每个进程分配固定或半固定的优先级。如果一个低优先级进程总是被一系列中高优先级任务抢占,它将永远无法执行。这里的关键失效模式是缺乏老化机制——一种随着进程等待时间的增加而逐步提升其有效优先级的技术。若没有老化机制,繁忙服务器上的低优先级后台任务可能无限期等待。

在Linux中,nice值范围(-20到+19)和实时优先级(SCHED_FIFOSCHED_RR)恰好会产生这种风险。在同一CPU核心上,优先级为99的SCHED_FIFO进程将抢占所有SCHED_OTHER进程,直到其主动让出或阻塞为止。

2. I/O调度器中的不公平排队

CPU饥饿已有充分记录,但I/O饥饿同样具有破坏性,且常被忽视。Linux I/O调度器(历史上为CFQ,现根据内核版本和存储类型使用BFQ或mq-deadline)管理块设备请求的服务顺序。在繁重的顺序写入工作负载下——常见于数据库服务器和日志密集型应用——I/O调度器可能会降低其他进程的随机读取请求的优先级,实际上使其无法访问磁盘。

这在VPS Hosting环境中是一个常见问题,多个租户共享底层存储基础设施,I/O争用是真实存在的运维挑战。

3. 内存压力与OOM Killer

当物理RAM耗尽时,Linux内核的内存不足(OOM)终止器会根据oom_score选择一个进程终止。虽然这在技术上属于终止而非饥饿,但其前驱状态——进程被反复换出到磁盘,始终无法获得足够的常驻内存以高效执行——构成了内存饥饿。该进程在技术上仍在运行,但由于持续的页面错误和交换I/O,几乎没有实质性进展。

4. 锁竞争与互斥锁饥饿

在多线程应用中,饥饿发生在同步原语层面。如果互斥锁或信号量使用非公平的获取策略(后进先出或在等待线程中随机选择),某个特定线程可能在锁频繁释放的情况下仍被持续跳过。这与操作系统层面的调度无关,完全发生在用户空间或内核的同步子系统内部。

5. 网络带宽饥饿

在容器化和虚拟化环境中,占用全部可用网络带宽的进程或容器可能使其他进程无法获得网络I/O。若没有通过tc(流量控制)cgroups进行流量整形,单个失控进程可能独占网卡吞吐量。

饥饿、死锁与活锁的技术对比

属性饥饿死锁活锁
系统进度有(其他进程正常运行)无(被阻塞的进程停止)表面有(无实质进展)
阻塞状态无(进程可运行)有(进程等待资源)无(进程处于活动状态)
持有资源有(循环持有并等待)
自行解决有时(通过老化机制)从不(需要人工干预)极少
检测难度高(无明确错误)中(可通过环路检测)高(表现为活动状态)
主要原因不公平的调度策略循环资源依赖响应式状态变更循环
Linux内核信号无(可能出现软锁定)

现代调度器如何应对饥饿

Linux完全公平调度器(CFS)

CFS于Linux内核2.6.23引入,通过追踪每个进程的虚拟运行时间(vruntime)来应对饥饿。调度器始终选择vruntime最低的进程——即获得CPU时间较少的进程会被系统性地优先调度。这一设计使得SCHED_OTHER进程在CFS下几乎不可能发生纯粹的CPU饥饿。

然而,CFS无法防止来自实时进程的饥饿。任何以SCHED_FIFOSCHED_RR调度的进程都会抢占所有SCHED_OTHER任务。内核参数/proc/sys/kernel/sched_rt_runtime_us(默认值:每秒950,000微秒)正是为此保留了5%的CPU时间给非实时任务。

优先级老化

经典老化算法在每个调度周期中,将等待中的进程的有效优先级递增固定值。一旦有效优先级达到最高级别,该进程便可保证获得执行机会。执行后,其优先级重置为基础值。这是解决基于优先级的饥饿问题的教科书式方案,已在Windows NT、Solaris及早期Linux调度器中以各种形式实现。

公平排队与加权公平排队(WFQ)

对于网络和I/O资源,加权公平排队按权重比例为每个流或进程分配带宽份额。即使高权重流产生更多流量,低权重流也能保证获得最低服务速率。Linux通过tc子系统中的分层令牌桶(HTB)随机公平排队(SFQ)规则来实现这一机制。

在生产Linux系统中诊断饥饿

识别饥饿需要同时关联多个数据源。

CPU调度分析

# Check per-process CPU wait time and scheduling statistics
cat /proc/<PID>/schedstat

# Monitor scheduler latency with perf
perf sched latency --sort max

# Identify processes with high voluntary/involuntary context switches
pidstat -w 1 10

# Check real-time process priorities that may be starving others
ps -eo pid,comm,cls,pri,ni --sort=-pri | head -20

schedstat输出提供了进程在运行队列中等待的累计时间(run_delay,单位为纳秒)——这是衡量调度饥饿的直接指标。

内存饥饿指标

# Check swap activity — high si/so values indicate memory starvation
vmstat 1 10

# Identify processes with high major page fault rates
pidstat -r 1 10

# Check OOM kill history
dmesg | grep -i "oom|killed process"

# Inspect per-process memory pressure
cat /proc/<PID>/status | grep -E "VmRSS|VmSwap|VmPeak"

I/O饥饿检测

# Per-process I/O wait statistics
iotop -b -n 5

# Block device queue depth and wait times
iostat -x 1 5

# Check I/O scheduler in use for each block device
cat /sys/block/sda/queue/scheduler

# Identify processes blocked on I/O
ps aux | awk '$8 ~ /D/ {print}'

处于D状态(不可中断睡眠)的进程被阻塞在I/O上。持续存在大量D状态进程是I/O饥饿或存储子系统饱和的强烈信号。

生产级解决方案与缓解策略

使用cgroups v2实现资源隔离

控制组(cgroups v2)为多进程和容器化环境提供了防止饥饿的最强健机制。通过为进程组分配明确的CPU、内存和I/O配额,无论系统负载如何,均可保证最低资源分配。

# Create a cgroup with CPU weight (higher weight = more CPU share)
mkdir /sys/fs/cgroup/my_service
echo "100" > /sys/fs/cgroup/my_service/cpu.weight

# Set memory limit to prevent memory starvation of other groups
echo "2G" > /sys/fs/cgroup/my_service/memory.max

# Assign process to cgroup
echo <PID> > /sys/fs/cgroup/my_service/cgroup.procs

cgroups v2中的CPU权重范围为1–10000,默认值为100。在资源争用时,权重为200的进程组获得的CPU份额是权重为100的进程组的两倍。

根据工作负载调优Linux调度器

# Increase scheduler migration cost to reduce cache thrashing (latency-sensitive workloads)
echo 500000 > /proc/sys/kernel/sched_migration_cost_ns

# Reduce scheduler granularity for more frequent preemption (throughput workloads)
echo 1000000 > /proc/sys/kernel/sched_min_granularity_ns

# Ensure real-time tasks cannot starve normal tasks
echo 950000 > /proc/sys/kernel/sched_rt_runtime_us

为每个进程应用适当的调度策略

# Set a process to batch scheduling (explicitly low-priority, won't starve interactive tasks)
chrt -b -p 0 <PID>

# Set a CPU-intensive background job to idle scheduling class
chrt -i -p 0 <PID>

# Adjust nice value for a running process
renice -n 10 -p <PID>

# Run a new command with reduced priority
nice -n 15 ./my_background_script.sh

SCHED_IDLE类(chrt -i)是真正后台任务的正确工具——它仅在没有其他可运行进程时才执行,从根本上消除了其对其他工作负载造成饥饿的可能。

I/O调度器选择

# For NVMe SSDs (low-latency, no rotational penalty): use none or mq-deadline
echo "mq-deadline" > /sys/block/nvme0n1/queue/scheduler

# For HDDs with mixed workloads: use bfq for fairness
echo "bfq" > /sys/block/sda/queue/scheduler

# Make persistent across reboots (add to /etc/udev/rules.d/)
echo 'ACTION=="add|change", KERNEL=="sda", ATTR{queue/scheduler}="bfq"' 
  > /etc/udev/rules.d/60-scheduler.rules

BFQ(预算公平排队)专门设计用于防止I/O饥饿,通过保证每个进程获得磁盘带宽的比例份额来实现。它是共享主机和数据库服务器环境的推荐调度器。

使用tc进行网络带宽控制

# Create a root HTB qdisc on the primary interface
tc qdisc add dev eth0 root handle 1: htb default 30

# Add a parent class with total bandwidth
tc class add dev eth0 parent 1: classid 1:1 htb rate 1gbit

# Add child classes with guaranteed minimums (prevents starvation)
tc class add dev eth0 parent 1:1 classid 1:10 htb rate 100mbit ceil 1gbit
tc class add dev eth0 parent 1:1 classid 1:20 htb rate 100mbit ceil 1gbit

# Add SFQ leaf to each class for per-flow fairness
tc qdisc add dev eth0 parent 1:10 handle 10: sfq perturb 10
tc qdisc add dev eth0 parent 1:20 handle 20: sfq perturb 10

此配置保证每个类别至少获得100 Mbps带宽,同时在带宽可用时允许突发使用至完整的1 Gbps链路容量。

内存过量提交与交换调优

# Reduce swappiness to minimize swap-induced memory starvation
echo 10 > /proc/sys/vm/swappiness

# Enable memory overcommit accounting (prevents OOM from surprising processes)
echo 2 > /proc/sys/vm/overcommit_memory

# Set overcommit ratio (total allocatable = RAM * ratio + swap)
echo 80 > /proc/sys/vm/overcommit_ratio

设置vm.swappiness=10指示内核优先回收页面缓存而非换出进程内存,在中等负载下显著降低内存饥饿的可能性。

虚拟化和容器化环境中的饥饿

在运行虚拟化管理程序(KVM、VMware ESXi、Hyper-V)的独立服务器上,饥饿可能发生在两个不同层面:

虚拟化管理程序层面的饥饿:虚拟机被虚拟化管理程序调度器拒绝分配CPU周期。KVM使用宿主内核的CFS进行vCPU调度,这意味着在资源争用时,CPU份额权重较低的虚拟机可能被权重较高的虚拟机饿死。VMware的DRS(分布式资源调度器)通过份额、预留和限制来控制这一问题。

客户操作系统层面的饥饿:在虚拟机内部,同样的操作系统级调度动态同样适用。在Docker或Kubernetes下运行且未设置明确资源限制的容器化工作负载,可能独占客户操作系统的CPU和内存,从而饿死同一宿主上的其他容器。

对于Kubernetes环境,请务必在Pod规格中同时定义requestslimits

resources:
  requests:
    cpu: "250m"
    memory: "512Mi"
  limits:
    cpu: "1000m"
    memory: "1Gi"

requests值决定调度位置和cgroup CPU份额权重。若未设置,Kubernetes调度器将没有公平放置的依据,容器运行时将分配默认(相等)权重——即便如此,若某个容器持续占满其CPU限制,仍可能导致饥饿。

数据库和应用服务器中的饥饿

数据库引擎实现了独立于操作系统调度器的内部调度器。PostgreSQL采用每连接一个进程的模型,每个后端进程正常竞争操作系统资源,但数据库内部的锁竞争(行级锁、咨询锁)可能导致应用层面的饥饿,使特定查询无限期等待锁的获取。

MySQL/InnoDB使用具有可配置并发限制(innodb_thread_concurrency)的线程池。将此值设置过低会导致查询饥饿,因为线程在排队等待执行槽位;设置过高则会导致CPU抖动。推荐的起始值为2 × number of CPU cores

对于Web服务器,NginxApache具有不同的饥饿特征。Nginx的事件驱动模型本身对工作进程饥饿具有较强抵抗力,但上游连接池耗尽(例如到PHP-FPM或后端API)会造成应用层面的饥饿。Apache的prefork MPM可能耗尽其MaxRequestWorkers限制,导致新连接无限期排队——这是一种连接饥饿形式。

在为共享Web托管工作负载配置带cPanel的VPS时,这些考量尤为重要,因为多个站点会竞争PHP-FPM工作进程池和MySQL连接限制。

饥饿预防的监控基础设施

被动诊断对于生产系统来说是不够的。主动监控栈应包括:

需要关注的Prometheus + Node Exporter指标:

  • node_schedstat_waiting_seconds_total — 每个CPU的累计运行队列等待时间
  • node_vmstat_pgmajfault — 表示内存压力的主要页面错误
  • node_disk_io_time_weighted_seconds_total — I/O队列饱和度
  • node_pressure_cpu_waiting_seconds_total — Linux PSI(压力停滞信息)CPU压力
  • node_pressure_memory_full_seconds_total — PSI内存完全停滞时间

Linux PSI(自内核4.20起可用)是内核中最直接的饥饿指标,它报告任务因等待CPU、内存或I/O资源而停滞的时间百分比:

# Real-time PSI monitoring
cat /proc/pressure/cpu
cat /proc/pressure/memory
cat /proc/pressure/io

输出格式:some avg10=X.XX avg60=X.XX avg300=X.XX total=NNNN,其中some表示至少有一个任务处于停滞状态。avg60上的值超过10–15%时,需立即进行调查。

对于管理VPS控制面板或自定义服务器栈的团队,将PSI指标集成到Grafana仪表板中,可在饥饿影响用户体验之前提供早期预警。

实用决策矩阵:选择正确的反饥饿机制

症状资源类型推荐工具配置目标
后台任务始终无法完成CPUSCHED_IDLEnice +19消除后台CPU竞争
负载下交互延迟突增CPUCFS调优 + cgroups v2 CPU权重保证交互进程的CPU份额
数据库查询超时CPU + 锁innodb_thread_concurrency、锁超时限制锁等待时间
磁盘密集型任务阻塞Web服务I/OBFQ调度器 + cgroups v2 io.weight按比例分配I/O
负载下容器OOM终止内存cgroups v2 memory.min + vm.swappiness保证最低常驻内存
网络密集型进程饿死其他进程网络HTB + SFQ(通过tc按类别保证带宽
虚拟机被虚拟化管理程序饿死vCPU虚拟化管理程序CPU预留/份额预留最低vCPU周期

关键技术要点

  • 切勿依赖默认调度处理混合工作负载服务器。根据延迟敏感性和业务优先级,使用chrtnice和cgroups v2对进程进行明确分类。
  • 在所有生产Linux系统上启用PSI监控/proc/pressure/*)。它是内核中最准确的实时饥饿指标,且开销几乎为零。
  • 对旋转磁盘使用BFQ,以及在多租户环境中为混合随机/顺序工作负载提供服务的任何NVMe设备。公平性保证值得付出边际吞吐量开销。
  • 无一例外地设置Kubernetes资源请求。未设置requests.cpu并不意味着”无限制”——它是一种调度隐患,会导致容器级CPU饥饿。
  • 在干预前区分饥饿与死锁。终止并重启一个饥饿进程并不能修复底层调度失衡;它只是暂时消除了症状。
  • 审计实时优先级分配SCHED_FIFO/SCHED_RR)在任何使用它们的系统上。单个配置错误的实时进程可能无限期地饿死CPU核心上所有普通优先级的工作负载。
  • 对于共享Web托管环境,在cgroup层面强制执行每账户的CPU和I/O配额,而不仅仅依赖应用层的速率限制。

常见问题解答

操作系统中饥饿与死锁有何区别?

死锁发生在两个或多个进程永久阻塞时,各自持有对方所需的资源——没有任何进程取得进展。饥饿发生在某个进程尽管处于可运行状态,却被调度器持续跳过时;其他进程正常执行。解决死锁需要打破循环依赖;解决饥饿需要修复调度策略,通常通过实现老化机制或公平排队来实现。

Linux CFS调度器如何防止CPU饥饿?

CFS追踪每个进程的虚拟运行时间(vruntime),并始终选择vruntime最低的进程执行。这确保了获得CPU时间较少的进程会被系统性地优先调度,使SCHED_OTHER进程几乎不可能发生无限期CPU饥饿。然而,实时进程(SCHED_FIFOSCHED_RR)完全绕过CFS,若sched_rt_runtime_us参数设置不当,仍可能饿死普通进程。

如何检测Linux服务器上的进程饥饿?

读取/proc/<PID>/schedstat以检查累计运行队列等待时间。监控/proc/pressure/cpu以获取PSI停滞指标。使用perf sched latency --sort max识别调度延迟异常高的进程。在ps aux输出中持续处于D状态的进程表明存在I/O饥饿而非CPU饥饿。

进程饥饿对VPS和云服务器环境的影响与裸机有何不同?

是的,有所不同。在VPS上,饥饿可能发生在两个层面:虚拟化管理程序层面(虚拟化管理程序调度器拒绝为您的虚拟机分配vCPU时间)和客户操作系统内部。虚拟化管理程序层面的饥饿对标准操作系统监控工具不可见,需要通过虚拟化管理程序特定指标或明显的CPU窃取时间(top输出中的%st)来发现。持续高于5–10%的窃取时间通常表明虚拟化管理程序未能提供您的虚拟机应得的vCPU周期。

在繁忙服务器上防止特定进程饿死其他进程的最快方法是什么?

使用chrt -i -p 0 <PID>将其分配到SCHED_IDLE调度类。该类仅在没有其他可运行进程时才执行,保证其不会饿死任何其他工作负载。对于I/O密集型后台进程,还需将其I/O优先级设置为空闲类:ionice -c 3 -p <PID>。两者结合,只需两条命令且无需修改任何应用,即可彻底消除该进程作为CPU和I/O饥饿来源的可能。

15%

全场主机优惠15%

测试技能,享折扣

使用代码:

Skills
开始使用