百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

「内存管理」父子进程如何共享地址空间

ahcoder 2025-02-18 10:19 11 浏览

对于进程,除了0号进程,其他的所有进程(无论是内核线程还是普通线程)都是通过fork出来的,而创建进程是在内核中完成的

  • 要么在内核空间直接创建出所谓的内核线程
  • 要么是应用空间通过fork/clone/vfork这样的系统调用进入内核,再由内核空间创建

同上一章,我们完成地分析了fork的整个过程,fork分为两部分,一部分是初始化进程控制块,另外一部分是进程管理部分。本章的重点学习以下内容

  • 子进程如何构建自己的内存管理
  • 父子进程如何共享地址空间
  • 写时复制如何发生

一,写时复制技术

在传统的unix操作系统中,创建新建成时就会复制父进程所拥有的所有资源,这样进程的创建就变得很低效。其原因如下:

  1. 每次创建子进程时,都要把父进程的进程地址空间中的内容复制到子进程,但是子进程甚至不用父进程的资源
  2. 子进程调用execve()系统调用之后,可能和父进程分道扬镳

所以现在的操作系统都采用写时复制(COW,Copy on Write)技术进行优化,其原理如下:

父进程在创建子进程的时,不需要复制进程地址空间的内容到子进程,只需要复制父进程的进程地址空间的页表到子进程,并将页面属性修改为只读,这样父、子进程就共享相同的物理内存。

当父、子进程中有一方需要修改某个物理页面的内容,触发写保护的缺页异常,然后才复制共享页面的内容,从而让父、子进程拥有各自的副本

也就是说,进程地址空间以只读的方式共享,当需要写入时,才发生复制:

在采用写时复制技术的Linux内核中,用fork函数创建一个新进程的开销就变得很小,免去了复制父进程整个进程地址空间导致的巨大开销,现在只需要复制父进程页表就可以了。

更多Liunx内核视频教程文档资料免费领取后台私信【内核】自行获取。

copy的内存管理

2.1 内存初始化

static int copy_mm(unsigned long clone_flags, struct task_struct *tsk)
{
	struct mm_struct *mm, *oldmm;
	int retval;
	
	tsk->min_flt = tsk->maj_flt = 0;
	tsk->nvcsw = tsk->nivcsw = 0;
#ifdef CONFIG_DETECT_HUNG_TASK
	tsk->last_switch_count = tsk->nvcsw + tsk->nivcsw;
#endif
	//初始化task的mm_struct和VMA为空
	tsk->mm = NULL;
	tsk->active_mm = NULL;

	/*
	 * Are we cloning a kernel thread?
	 *
	 * We need to steal a active VM for that..
	 */
	oldmm = current->mm;		//current宏表明当前进程,即父进程
	if (!oldmm)		//如果父进程使一个没有进程地址空间的内核线程,不需要为子进程做内存复制,直接退出
		return 0;

	/* initialize the new vmacache entries */
	vmacache_flush(tsk);
	//如果调用vfork创建子进程,那么CLONE_VM标志位就会被置位,因此子进程进程的mm直接指向父进程的内存描述符
	if (clone_flags & CLONE_VM) {
		atomic_inc(&oldmm->mm_users);
		mm = oldmm;
		goto good_mm;
	}
	//如果CLONE_VM没有置位,那么调用dump_mm来复制父进程的进程地址空间
	retval = -ENOMEM;
	mm = dup_mm(tsk);
	if (!mm)
		goto fail_nomem;

good_mm:
	tsk->mm = mm;
	tsk->active_mm = mm;
	return 0;

fail_nomem:
	return retval;
}

该函数比较简单,其主要做了以下几件事情:

如果是内核线程,也就是当前进程地址空间为空,就不需要为子进程做内存复制,直接退出

在创建的时候,会根据fork参数的clone_flags来决定,如果是CLONE_VM标志位就会被置位,子进程的mm指针指向父进程的内存描述符的mm即可

如果CLONE_VM没有被置为,那么调用dump_mm来复制父进程的进程地址空间

dum_mm函数实现也在fork.c文件中,实现也比较简单

static struct mm_struct *dup_mm(struct task_struct *tsk)
{
	struct mm_struct *mm, *oldmm = current->mm;
	int err;
//1.通过allocate_mm分配属于进程自己的mm_struct结构来管理自己的地址空间
	mm = allocate_mm();
	if (!mm)
		goto fail_nomem;

	memcpy(mm, oldmm, sizeof(*mm));
//2.通过mm_init来初始化mm_struct中相关成员
	if (!mm_init(mm, tsk, mm->user_ns))
		goto fail_nomem;
//3.通过dup_mmap来复制父进程的地址空间
	err = dup_mmap(mm, oldmm);
	if (err)
		goto free_pt;

	mm->hiwater_rss = get_mm_rss(mm);
	mm->hiwater_vm = mm->total_vm;

	if (mm->binfmt && !try_module_get(mm->binfmt->module))
		goto free_pt;

	return mm;

free_pt:
	/* don't put binfmt in mmput, we haven't got module yet */
	mm->binfmt = NULL;
	mmput(mm);

fail_nomem:
	return NULL;
}

分配mm_struct结构就不需要赘述,我们先看下mm_init,其函数如下:

static struct mm_struct *mm_init(struct mm_struct *mm, struct task_struct *p,
	struct user_namespace *user_ns)
{
// 1. 初始化mm
	mm->mmap = NULL;
	mm->mm_rb = RB_ROOT;
	mm->vmacache_seqnum = 0;
	atomic_set(&mm->mm_users, 1);
	atomic_set(&mm->mm_count, 1);
	init_rwsem(&mm->mmap_sem);
	INIT_LIST_HEAD(&mm->mmlist);
	mm->core_state = NULL;
	atomic_long_set(&mm->nr_ptes, 0);
	mm_nr_pmds_init(mm);
	mm->map_count = 0;
	mm->locked_vm = 0;
	mm->pinned_vm = 0;
	memset(&mm->rss_stat, 0, sizeof(mm->rss_stat));
	spin_lock_init(&mm->page_table_lock);
	mm_init_cpumask(mm);
	mm_init_aio(mm);
	mm_init_owner(mm, p);
	RCU_INIT_POINTER(mm->exe_file, NULL);
	mmu_notifier_mm_init(mm);
	clear_tlb_flush_pending(mm);
#if defined(CONFIG_TRANSPARENT_HUGEPAGE) && !USE_SPLIT_PMD_PTLOCKS
	mm->pmd_huge_pte = NULL;
#endif
	mm_init_uprobes_state(mm);

	if (current->mm) {
		mm->flags = current->mm->flags & MMF_INIT_MASK;
		mm->def_flags = current->mm->def_flags & VM_INIT_DEF_MASK;
	} else {
		mm->flags = default_dump_filter;
		mm->def_flags = 0;
	}
//2,分配一个进程私有的page页,当需要va->pa转换的时候,查找属于当前进程的pgd表项
	if (mm_alloc_pgd(mm))
		goto fail_nopgd;
//3. 设置了mm->context.id为0,当进程调度的时候进行地址空间切换,如果mm->context.id为0就为进程分配新的ASID
	if (init_new_context(p, mm))
		goto fail_nocontext;

	mm->user_ns = get_user_ns(user_ns);
	return mm;
}

每个进程在创建的时候都会分配一级页表,并且内存描述符中一个pdg的成员指向这个进程的一级页表的基地址。当进程初始化完成后,需要转换,进程切换的时候,会使用tsk->mm->pgd指向的页表作为base来进程页表中遍历,对于ARM64架构来说,他们由两个页表的基地址寄存器ttbr0_el1和ttbr1_el0。

讲完mm_init相关的内容,接着返回dum_mmap,dup_mmap函数参数中,mm表示新进程的mm_struct数据结构,oldmm表示父进程的mm_struct数据结构。该函数的主要作用是遍历父进程中所有的VMA,然后复制父进程VMA中对应的PTE到子进程的VMA对应的PTE中。注意,只是复制PTE,并不是复制VMA对应页面的内容。

static __latent_entropy int dup_mmap(struct mm_struct *mm,
					struct mm_struct *oldmm)
{
    down_write_killable(&oldmm->mmap_sem);
    for (mpnt = oldmm->mmap; mpnt; mpnt = mpnt->vm_next) {
    			INIT_LIST_HEAD(&tmp->anon_vma_chain);
		retval = vma_dup_policy(mpnt, tmp);
		if (retval)
			goto fail_nomem_policy;
		tmp->vm_mm = mm;
		if (anon_vma_fork(tmp, mpnt))
			goto fail_nomem_anon_vma_fork;
        		__vma_link_rb(mm, tmp, rb_link, rb_parent);
		rb_link = &tmp->vm_rb.rb_right;
		rb_parent = &tmp->vm_rb;

		mm->map_count++;
		retval = copy_page_range(mm, oldmm, mpnt);
    }
    up_write(&mm->mmap_sem);
}

由于后续会修改父进程的进程地址空间,因此要给父进程加上一个写类型的信号量:

通过fork循环遍历父进程中所有的VMA,进程中所有的VMA都会添加到内存描述符的mmap成员指向的链表中

vma_dup_policy为子进程创建一个VMA,子进程VMA中有一个链表aon_vma_chain,用于存放aon_vma_chain数据结构,用在RMAP机制中

anon_vma_fork函数创建属于子进程的aon_vma数据结构,并使用aon_vma_chain来实现父子进程VMA的链接

__vma_link_rb把刚才创建的VMA插入子进程的mm

copy_page_range复制父进程VMA的页表到子进程页表中

对于每一个vma都调用copy_page_range,此函数会遍历vma中每一个虚拟页,然后拷贝父进程的页表到子进程(虚拟页对应的页表存在的话),这里主要是页表遍历的代码,从pgd->copy_page_range->copy_pud_range->copy_pmd_range->copy_pte_range

static int copy_pte_range(struct mm_struct *dst_mm, struct mm_struct *src_mm,
		   pmd_t *dst_pmd, pmd_t *src_pmd, struct vm_area_struct *vma,
		   unsigned long addr, unsigned long end)
{
    	do {
		/*
		 * We are holding two locks at this point - either of them
		 * could generate latencies in another task on another CPU.
		 */
		if (progress >= 32) {
			progress = 0;
			if (need_resched() ||
			    spin_needbreak(src_ptl) || spin_needbreak(dst_ptl))
				break;
		}
		if (pte_none(*src_pte)) {
			progress++;
			continue;
		}
		entry.val = copy_one_pte(dst_mm, src_mm, dst_pte, src_pte,
							vma, addr, rss);
		if (entry.val)
			break;
		progress += 8;
	}
}

我们看的在copy_present_pte函数中,对父子进程的写保护处理,也就是当发现父进程的vma的属性为私有可写的时候,就设置父进程和子进程的相关的页表项为只读。这点很重要,因为这样既保证了父子进程的地址空间的共享(读的时候),又保证了他们有独立的地址空间(写的时候)。

2.2 写时复制发生

ork创建完子进程后,通过复制父进程的页表来共享父进程的地址空间,我们知道对于私有的可写的页,设置了父子进程的相应页表为为只读,这样就为写实复制创造了页表层面上的条件。当父进程或者子进程,写写保护的页时触发访问权限异常:

 ...   //处理器架构处理
 do_page_fault                       // arch/arm64/mm/fault.c
->  __do_page_fault
    ->  handle_mm_fault 
        -> handle_pte_fault      //mm/memory.c
            ->  if (vmf->flags & FAULT_FLAG_WRITE) {          
                      if (!pte_write(entry))                
                              return do_wp_page(vmf);       
                      entry = pte_mkdirty(entry);           
              }            

总结

fork的时候会创建内核管理初始化,例如mm_struct, vma等用于描述进程自己的地址空间,然后会创建出进程私有的pgd页,用于页表遍历时填充页表,然后还会拷贝父进程所有的vma,然后就是对于每个vma做页表的拷贝和写保护操作。后面的pud pmd的其他各级页表的创建和填充工作由缺页异常处理来完成。

相关推荐

Linux ntp时钟同步问题(linux ntp同步命令)

有时候,操作系统会报linux的ntp时钟错误。从时钟源同步时间超时。我查看了一下ntp的时钟源,发现执行ntpq-p显示超时。执行nslookup时钟服务器域名,发现可以正常解析。执行了n...

linux服务器同步利器Rsync全介绍(付脚本)

1、认识Rsync(remotesynchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远程两个主机之间的文件...

如何使用Rsync同步两个网站服务器的内容

本头条号每天坚持更新原创干货技术文章,欢迎关注本头条号"Linux学习教程",公众号名称“Linux入门学习教程"。如需学习视频,请复制以下信息到手机浏览器或电脑浏览器上:zc...

Linux TB级小文件同步备份解决方案

在某些电子档案存储的业务系统下,按照业务场景要求,需要将产生的所有电子影像资料永久存储,并支持备份;因为“钞能力”等原因,一般备份存储只有一个节点(即:一个备份存储服务器);这样就要求研发工程师,不...

CentOS7下使用Lsyncd实现文件实时同步

Lsyncd简单介绍Lsyncd使用文件系统事件接口(inotify或fsevents)来监视本地文件和目录的更改。Lsyncd在几秒钟内将这些文件事件整理核对后,然后生成一个或多个进程以将更...

如何手动同步Linux系统时间并与互联网时间保持同步?

在Linux系统中,正确的时间同步对于许多任务都是至关重要的。一些关键应用程序可能需要准确的时间戳才能正常工作,而一些安全功能也需要确保所有服务器的时间都是准确的。NTP服务可以自动同步系统时间和互...

Linux服务器Rsync定时同步一键化配置指南

1、主从服务器同时安装rsyncopenssh-clientaptupdate&&aptinstall-yrsyncopenssh-client2、主服务器安装好后输入以下命令生成密钥...

Linux系统如何使用NTPDATE命令设置时间同步

简介:咱们在使用Linux系统的时候,常常能发现用了一阵子之后,Linux系统的时间就对不上了。已经知道的情况是,安装Linux的时候选的时区是Asia/Shanghai,可这系统运行了一...

开源的Linux文件同步工具有哪些?(linux 文件夹 同步)

Linux系统之间经常需要文件同步,一个好的文件同步工具省时省力,这里介绍几款开源的Linux文件同步工具1.rsync:rsync是Linux上一个功能强大的命令行工具,可以在不同的服务器之间同...

Linux 系统使用 rsync + inotify 实现文件实时同步

Linux系统使用rsync+inotify实现文件实时同步简介inotify监控文件的变化后通知rsync进行文件的同步#配置免密登录ssh-keygen-trsaca...

Linux 远程数据同步工具详解(linux远程同步命令)

一、简介1认识Rsync(remotesynchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远程两个主机之...

构建基于 Linux 的 NTP 时间同步集群与时间安全防护实战指南

一、为什么时间同步对系统如此重要?在分布式系统、数据库复制、消息队列、审计日志、安全认证(如Kerberos)、容器编排等场景中,系统时间一致性是保障正确性与安全性的基础。一旦服务器间时间漂移,可能...

每日Linux学习:同步备份工具 rsync

rsync是一个用于高效同步文件和目录的工具。它通过仅传输变化的部分(增量传输)来节省时间和带宽,支持本地同步、远程同步(通过SSH),还能保留文件原有权限、时间戳等属性。本文通过几个常用的实例来...

Chromixium OS 1.0发布 基于Ubuntu发行版

Chromixium项目宣布chromixiumOS1发布,一款基于Ubuntu的Linux分支,chromixiumOS试图重新打造一款外观和感觉与ChromeOS相似的完...

iOS8.0.X~iOS8.1完美越狱!盘古团队出品

【巴士速递·移动情报站】最新消息,iOS8.1越狱了!!此次越狱依旧是iOS7时代我国的大神盘古团队带来的,而该次越狱支持最新的iPhone6、iPhone6Plus、iPadAir2和iPad...