Linux内核13-进程切换

进程切换,也称为任务切换、上下文切换或任务调度,本文将探讨linux内核中进程切换的实现。我们首先理解几个关键概念。

1.1 硬件上下文

每个进程都有自己的地址空间,但所有进程共享CPU寄存器。因此,在恢复进程执行前,内核必须确保挂起时的寄存器值被重新加载到CPU寄存器中。

这些需要加载到CPU寄存器中的值称为硬件上下文。硬件上下文是进程执行上下文的一个子集,包含进程执行所需的所有信息。在Linux中,进程的硬件上下文部分存储在进程描述符中,另一部分存储在内核态栈中。

在下文中,我们假设prev指向旧进程,next指向新进程。因此,进程切换就是保存prev进程的硬件上下文,然后加载next进程的硬件上下文。由于进程切换非常频繁,缩短保存和加载硬件上下文的时间至关重要。

旧版本的Linux利用x86架构提供的硬件支持,通过远程跳转指令(GNU-ljump;Intel-jmp far)进行进程切换,跳转到下一个进程的任务状态段(TSS)描述符。执行这条跳转指令时,CPU会自动执行硬件上下文切换,保存旧的硬件上下文,加载新的硬件上下文。然而,Linux 2.6版本以后,通过软件进行进程切换,原因如下:

通过一系列的mov指令逐步执行切换,可以更好地控制加载数据的合法性。特别是dses段寄存器的值,可能会被恶意用户篡改。使用远程跳转指令无法进行数据检查。新旧方法所需的时间大致相同。但是,优化硬件上下文切换是不可能的,因为这是由CPU完成的,而Linux使用软件替代硬件上下文切换,因此有优化的空间,以提高执行时间。进程切换只能在内核态发生。在进程切换之前,用户态进程使用的所有寄存器内容都已经包含在内核态栈中,其中包括指定用户态进程栈指针地址的ssesp寄存器内容。

1.2 任务状态段-TSS

x86架构包含一个特殊的段寄存器,称为任务状态段(TSS),用来保存硬件上下文内容。尽管Linux不使用硬件上下文切换,但还是为每个不同CPU建立一个TSS。这么做的原因有两个:

当x86架构的CPU从用户态切换到内核态时,会从TSS中获取内核态的栈地址。用户态进程想要访问I/O端口时,CPU需要访问存储在TSS中的I/O权限位,判断进程是否被允许访问该I/O端口。

当用户态进程执行inout指令时,I/O控制单元会检查eflags寄存器中的IOPL位(2位)。如果等于3,也就是超级用户权限,进程对于该I/O端口来说就是一个超级用户,直接执行I/O指令。否则,继续执行检查。访问tr寄存器,确定当前的TSS,以及正确的I/O访问权限。它检查I/O端口对应的访问权限位。如果清零,指令被执行;否则,控制单元发出常规保护的异常。内核中使用tss_struct结构体描述TSS。init_tss数组为系统中的每一个CPU包含一个tss_struct结构。每一次进程切换,内核更新TSS相关内容,使CPU控制单元能够安全地检索自己想要的信息。因此,TSS反映了当前运行在CPU上的进程的特权级别,但当进程不运行时,无需维护这些信息。

每个TSS具有8个字节长度的任务状态段描述符(TSSD)。这个描述符包含一个32位的基地址,指向TSS的起始地址,以及20位的Limit域,表示页的大小。TSSD的S标志被清零,说明这是一个系统段(参见第2章的段描述符)。

Type域设置为9或11都可以,表明该段是一个TSS段即可。Intel最初的设计中,系统中的每个进程都应该引用自己的TSS:Type域的低第2个有效位称为Busy位,如果被设为1,进程正在CPU上执行;设为0,没有执行。在Linux的设计中,每个CPU只有一个TSS,所以,Busy位总是设为1。换句话说,Linux中Type域一般为11。

创建的这些TSSD存储在全局描述符表(GDT)中,该表的基地址存储在CPU的gdtr寄存器中。每个CPU的tr寄存器包含对应TSS的TSSD选择器,还包含两个隐藏的、不可编程的域:TSSD的BaseLimit域。使用这种方法,CPU可以直接寻址TSS,而不必非得访问GDT中TSS的地址。

1.3 线程域

每当进程切换时,将要被替换掉的进程硬件上下文内容都应该被保存到某个地址。显然不能保存在TSS中,因为Linux为每个CPU建立了一个TSS,而不是为每个进程建立TSS。

因此,进程描述符中添加了一个类型为thread_struct的结构,通过它,内核保存旧进程的硬件上下文。后面我们会看到,该数据结构包含了大部分的CPU寄存器,除了通用目的寄存器,比如eaxebx等,它们被存储在内核态栈中。

2 执行进程切换

进程切换的时机:在中断处理程序中直接调用schedule()函数,实现进程调度。内核线程是一个特殊的进程,只有内核态没有用户态。因此既可以主动调用schedule()函数进行调度,也可以被中断处理程序调用。内核态进程无法直接主动调度,因为schedule()是一个内核函数,不是系统调用。因此只能在中断处理程序中进行调度。关键代码梳理如下:

首先,schedule()函数会调用next = pick_next_task(rq, prev);,根据调度算法策略,选取要执行的下一个进程。其次,根据调度策略得到要执行的进程后,调用context_switch(rq, prev, next);,完成进程上下文切换。其中,最关键的switch_to(prev,next, prev);切换堆栈和寄存器的状态。我们假设prev指向被切换掉的进程描述符,next指向将要执行的进程描述符。我们将会在第7章发现,prevnext正是schedule()函数的局部变量。

2.1 switch_to

进程硬件上下文的切换是由宏switch_to完成的。该宏的实现与硬件架构息息相关,要想理解它需要下一番功夫。下面是基于X86架构下的该宏实现的汇编代码:

#define switch_to(prev, next, last)                             do {                                                                /* 进程切换可能会改变所有的寄存器,所以我们通过未使用的输出变量显式地修改它们。 */     /* EAX和EBP没有被列出,是因为EBP是为当前进程访问显式地保存和恢复的寄存器, */     /* 而EAX将会作为函数__switch_to()的返回值。 */                  unsigned long ebx, ecx, edx, esi, edi;                                                                                          asm volatile("pushflnt"               /* save    flags */              "pushl %%ebpnt"              /* save    EBP   */              "movl %%esp,%[prev_sp]nt"    /* save    ESP   */              "movl %[next_sp],%%espnt"    /* restore ESP   */              "movl $1f,%[prev_ip]nt"      /* save    EIP   */              "pushl %[next_ip]nt"         /* restore EIP   */              __switch_canary                                                 __retpoline_fill_return_buffer                                  "jmp __switch_ton"            /* regparm call  */              "1:t"                                                          "popl %%ebpnt"               /* restore EBP   */              "popfln"                      /* restore flags */                                                                              /* 输出参数 */                                                  : [prev_sp] "=m" (prev->thread.sp),                               [prev_ip] "=m" (prev->thread.ip),                               "=a" (last),                                                                                                                    /* 列出所有可能会修改的寄存器  */                               "=b" (ebx), "=c" (ecx), "=d" (edx),                             "=S" (esi), "=D" (edi)                                                                                                          __switch_canary_oparam                                                                                                          /* 输入参数 */                                                : [next_sp]  "m" (next->thread.sp),                               [next_ip]  "m" (next->thread.ip),                                                                                               /* 为函数__switch_to()设置寄存器参数 */                         [prev]     "a" (prev),                                          [next]     "d" (next)                                                                                                           __switch_canary_iparam                                                                                                        : /* reloaded segment registers */                             "memory");                                          } while (0)

首先,该宏具有3个参数,prevnextlastprevnext这两个参数很容易理解,分别指向新旧进程的描述符地址;last是一个输出参数,用来记录是从哪个进程切换来的。为什么需要last参数呢?当进程切换涉及到3个进程的时候,3个进程分别假设为A、B、C。假设内核决定关掉A进程,激活B进程。在schedule函数中,prev指向A的描述符,而next指向B的描述符。只要switch_to宏使A失效,A的执行流就会冻结。后面,当内核想要重新激活A,必须关掉C进程,就要再执行一次switch_to宏,此时prev指向C,next指向A。当A进程想要继续执行之前的执行流时,会查找原先的内核态栈,发现prev等于A进程描述符,next等于B进程描述符。此时,调度器失去了对C进程的引用。保留这个引用非常有用,我们后面再讨论。图3-7分别展示了进程A、B和C内核态栈的内容,及寄存器eax的值。还展示了last的值,随后被eax中的值覆盖。

Linux内核13-进程切换

switch_to宏的处理过程如下:

将新旧进程描述符存放到CPU寄存器中。保存旧进程的内核态栈,比如eflagsebp寄存器的内容。保存旧进程栈指针espprev->thread.esp中。操作数484(%eax)表明目的地址是寄存器eax中的地址加上484。将新进程的栈指针加载到esp寄存器中。

movl 484(%edx), %esp

保存标签1的地址->prev->thread.eip

movl $1f, 480(%eax)

加载新进程的指令流。意义和第5步差不多,就是执行顺序相反。跳转到__switch_to()函数执行,是一个C函数。

至此,进程A被进程B取代:开始执行B进程的指令。第一步应该是先弹出eflagsebp寄存器的值。

拷贝eax寄存器的内容(第一步加载的)到last变量中。也就是说,last记录了被取代的进程。

2.2 __switch_to()函数

实际上,大部分的进程切换工作是由__switch_to()函数完成的,它的参数是prev_pnext_p,分别指向旧进程和新进程。这个函数和普通的函数有些差别,因为__switch_to()函数从eaxedx寄存器中获取prev_pnext_p这两个参数(在分析switch_to宏的时候已经讲过),而不是像普通函数那样,从栈中获取参数。为了强制函数从寄存器中获取参数,内核使用__attribute__regparm进行声明。这是gcc编译器对C语言的一个非标准扩展。__switch_to()函数定义在include/asm-i386/system.h文件中:

__switch_to(struct task_struct *prev_p, struct task_struct *next_p) __attribute__((regparm(3)));

这个函数执行的内容:

执行__unlazy_fpu()宏,保存旧进程的FPU、MMX和XMM寄存器。执行smp_processor_id()宏,获取正在执行代码的CPU的ID。从thread_info结构的cpu成员中获取。加载新进程的next_p->thread.esp0到当前CPU的TSS段中的esp0成员中。通过调用sysenter汇编指令从用户态切换到内核态引起的任何特权级别的改变都会导致将这个地址拷贝到esp寄存器中。将新进程的线程本地存储(TLS)段加载到当前CPU的GDT中。3个段选择器存储在进程描述符的tls_array数组中。存储fsgs段寄存器的内容到旧进程的prev_p->thread.fsprev_p->thread.gs中。汇编指令如下:

寄存器esi指向prev_p->thread结构。gs寄存器用来存放TLS段的地址。fs寄存器实际上Windows使用。

加载新进程的fsgs寄存器内容。数据来源是新进程的thread_struct描述符中对应的值。汇编语言如下:

ebx寄存器指向next_p->thread结构。

载入新进程的调试寄存器中的信息。更新TSS中的I/O权限位(如果有必要的话)。也就是如果新旧进程对I/O访问有自己特殊的要求的话就需要更改。__switch_to()函数结束。

相应的汇编语言就是:

因为switch_to总是假设eax寄存器保存旧进程的进程描述符的地址。所以,这里把prev_p变量再次写入到eax寄存器中。

以上就是Linux内核13-进程切换的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/26238.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月2日 17:05:57
下一篇 2025年11月2日 17:38:30

相关推荐

  • Pboot插件缓存机制的详细解析_Pboot插件缓存清理的命令操作

    插件功能异常或页面显示陈旧内容可能是缓存未更新所致。PbootCMS通过/runtime/cache/与/runtime/temp/目录缓存插件配置、模板解析结果和数据库查询数据,提升性能但影响调试。解决方法包括:1. 手动删除上述目录下所有文件;2. 后台进入“系统工具”-“缓存管理”,勾选插件、…

    2025年12月6日 软件教程
    400
  • Linux中如何安装Nginx服务_Linux安装Nginx服务的完整指南

    首先更新系统软件包,然后通过对应包管理器安装Nginx,启动并启用服务,开放防火墙端口,最后验证欢迎页显示以确认安装成功。 在Linux系统中安装Nginx服务是搭建Web服务器的第一步。Nginx以高性能、低资源消耗和良好的并发处理能力著称,广泛用于静态内容服务、反向代理和负载均衡。以下是在主流L…

    2025年12月6日 运维
    000
  • Linux journalctl与systemctl status结合分析

    先看 systemctl status 确认服务状态,再用 journalctl 查看详细日志。例如 nginx 启动失败时,systemctl status 显示 Active: failed,journalctl -u nginx 发现端口 80 被占用,结合两者可快速定位问题根源。 在 Lin…

    2025年12月6日 运维
    100
  • Linux如何防止缓冲区溢出_Linux防止缓冲区溢出的安全措施

    缓冲区溢出可通过栈保护、ASLR、NX bit、安全编译选项和良好编码实践来防范。1. 使用-fstack-protector-strong插入canary检测栈破坏;2. 启用ASLR(kernel.randomize_va_space=2)随机化内存布局;3. 利用NX bit标记不可执行内存页…

    2025年12月6日 运维
    000
  • Linux如何优化系统性能_Linux系统性能优化的实用方法

    优化Linux性能需先监控资源使用,通过top、vmstat等命令分析负载,再调整内核参数如TCP优化与内存交换,结合关闭无用服务、选用合适文件系统与I/O调度器,持续按需调优以提升系统效率。 Linux系统性能优化的核心在于合理配置资源、监控系统状态并及时调整瓶颈环节。通过一系列实用手段,可以显著…

    2025年12月6日 运维
    000
  • Pboot插件数据库连接的配置教程_Pboot插件数据库备份的自动化脚本

    首先配置PbootCMS数据库连接参数,确保插件正常访问;接着创建auto_backup.php脚本实现备份功能;然后通过Windows任务计划程序或Linux Cron定时执行该脚本,完成自动化备份流程。 如果您正在开发或维护一个基于PbootCMS的网站,并希望实现插件对数据库的连接配置以及自动…

    2025年12月6日 软件教程
    000
  • Linux命令行中wc命令的实用技巧

    wc命令可统计文件的行数、单词数、字符数和字节数,常用-l统计行数,如wc -l /etc/passwd查看用户数量;结合grep可分析日志,如grep “error” logfile.txt | wc -l统计错误行数;-w统计单词数,-m统计字符数(含空格换行),-c统计…

    2025年12月6日 运维
    000
  • Linux命令行中fc命令的使用方法

    fc 是 Linux 中用于管理命令历史的工具,可查看、编辑并重新执行历史命令。输入 fc 直接编辑最近一条命令,默认调用 $EDITOR 打开编辑器修改后自动执行;通过 fc 100 110 或 fc -5 -1 可批量编辑指定范围的历史命令,保存后按序重跑;使用 fc -l 列出命令历史,支持起…

    2025年12月6日 运维
    000
  • VSCode终端美化:功率线字体配置

    首先需安装Powerline字体如Nerd Fonts,再在VSCode设置中将terminal.integrated.fontFamily设为’FiraCode Nerd Font’等支持字体,最后配合oh-my-zsh的powerlevel10k等Shell主题启用完整美…

    2025年12月6日 开发工具
    000
  • JavaScript响应式编程与Observable

    Observable是响应式编程中处理异步数据流的核心概念,它允许随时间推移发出多个值,支持订阅、操作符链式调用及统一错误处理,广泛应用于事件监听、状态管理和复杂异步逻辑,提升代码可维护性与可读性。 响应式编程是一种面向数据流和变化传播的编程范式。在前端开发中,尤其面对复杂的用户交互和异步操作时,J…

    2025年12月6日 web前端
    000
  • Linux命令行中locate命令的快速查找方法

    locate命令通过查询数据库快速查找文件,使用-i可忽略大小写,-n限制结果数量,-c统计匹配项,-r支持正则表达式精确匹配,刚创建的文件需运行sudo updatedb更新数据库才能查到。 在Linux命令行中,locate 命令是快速查找文件和目录路径的高效工具。它不直接扫描整个文件系统,而是…

    2025年12月6日 运维
    000
  • Linux文件系统rsync命令详解

    rsync通过增量同步高效复制文件,支持本地及远程同步,常用选项包括-a、-v、-z和–delete,结合SSH可安全传输数据,配合cron可实现定时备份。 rsync 是 Linux 系统中一个非常强大且常用的文件同步工具,能够高效地在本地或远程系统之间复制和同步文件与目录。它以“增量…

    2025年12月6日 运维
    000
  • Linux systemctl list-dependencies命令详解

    systemctl list-dependencies 用于查看 systemd 单元的依赖关系,帮助排查启动问题和优化启动流程。1. 基本语法为 systemctl list-dependencies [选项] [单元名称],默认显示 default.target 的依赖。2. 常见单元类型包括 …

    2025年12月6日 运维
    100
  • 如何在mysql中分析索引未命中问题

    答案是通过EXPLAIN分析执行计划,检查索引使用情况,优化WHERE条件写法,避免索引失效,结合慢查询日志定位问题SQL,并根据查询模式合理设计索引。 当 MySQL 查询性能下降,很可能是索引未命中导致的。要分析这类问题,核心是理解查询执行计划、检查索引设计是否合理,并结合实际数据访问模式进行优…

    2025年12月6日 数据库
    000
  • 如何在mysql中安装mysql插件扩展

    安装MySQL插件需先确认插件文件位于plugin_dir目录,使用INSTALL PLUGIN命令加载,如INSTALL PLUGIN keyring_file SONAME ‘keyring_file.so’,并确保用户有SUPER权限,最后通过SHOW PLUGINS验…

    2025年12月6日 数据库
    000
  • 如何在mysql中定期清理过期备份文件

    通过Shell脚本结合cron定时任务实现MySQL过期备份文件自动清理,首先统一备份命名格式(如backup_20250405.sql)并存放在指定目录(/data/backup/mysql),然后编写脚本使用find命令删除7天前的.sql文件,配置每日凌晨2点执行的cron任务,并加入日志记录…

    2025年12月6日 数据库
    000
  • Linux文件系统中的ext4与xfs对比

    ext4适合通用场景,稳定性强,兼容性好,适用于桌面和中小型服务器;XFS擅长大规模高并发I/O,扩展性强,适用于大文件与高性能需求环境。 在Linux系统中,ext4和XFS是两种广泛使用的文件系统,各自适用于不同的使用场景。选择哪一个取决于性能需求、数据规模以及工作负载类型。 设计目标与适用场景…

    2025年12月6日 运维
    000
  • 如何在Linux中处理磁盘满的问题?

    先使用df -h和du命令定位占用空间的目录或文件,再清理日志、缓存等可删除内容,并通过定期任务和监控预防问题复发。 当Linux系统提示磁盘空间不足时,关键是要快速定位问题源头并释放空间。以下是实用的排查和处理步骤。 检查磁盘使用情况 使用df命令查看各分区的使用情况: df -h:以易读方式显示…

    2025年12月6日 运维
    000
  • Linux命令行中free命令的使用方法

    free命令用于查看Linux内存使用情况,包括总内存、已用、空闲、共享、缓存及可用内存;使用-h可读格式显示,-s周期刷新,-c限制次数,-t显示总计,帮助快速评估系统内存状态。 free命令用于显示Linux系统中内存和交换空间的使用情况,包括物理内存、已用内存、空闲内存以及缓存和缓冲区的占用情…

    2025年12月6日 运维
    000
  • Linux命令行中tail -f命令的详细应用

    tail -f 用于实时监控文件新增内容,常用于日志查看;支持 -F 处理轮转、-n 指定行数、结合 grep 过滤,可监控多文件,需注意权限与资源释放。 tail -f 是 Linux 中一个非常实用的命令,主要用于实时查看文件的新增内容,尤其在监控日志文件时极为常见。它会持续输出文件末尾新增的数…

    2025年12月6日 运维
    000

发表回复

登录后才能评论
关注微信