「技术干货」一文搞懂Linux内核中per-CPU变量
ahcoder 2025-01-07 10:23 10 浏览
为什么需要per-CPU变量
假设系统中有4个cpu, 同时有一个变量在各个CPU之间是共享的,每个cpu都有访问该变量的权限。
当cpu1在改变变量v的值的时候,cpu2也需要改变变量v的值。这时候就会导致变量v的值不正确。这时候机智的你就会说,在cpu1访问变量v的时候可以使用原子操作加锁,cpu2访问变量v的时候需要等待。可是机智的是否考虑过加锁对性能的影响,原子操作对cpu是极耗cpu的。
嵌入式进阶教程分门别类整理好了,看的时候十分方便,由于内容较多,这里就截取一部分图吧。
需要的朋友私信【内核】即可领取。
内核学习地址:Linux内核源码/内存调优/文件系统/进程管理/设备驱动/网络协议栈-学习视频教程-腾讯课堂
再考虑一种情况,现在高速的cpu都带有高速缓冲cache。它介于cpu和主存之间,主要作用是加快cpu的访问速度。因为主存的访问速度相比cpu读写比较慢,在之间引入cache之后,当CPU调用大量数据时,就可避开内存直接从缓存中调用,从而加快读取速度。
比如cpu1对变量v操作之后,变量v的值就发生了变化。而cpu2, cpu3, cpu4的cache中的值还是以前的值,所以这时候就需要将cpu2, cpu3, cpu4的cache中的值变为无效的,当cpu2读取变量v的时候就需要从内存中读取v。所以当某一个cpu对共享数据v做操作后,比较对其余的cache做无效操作,这也是对性能有所损耗的。
所以,就引入了per-cpu变量。
什么是per-CPU变量
per-CPU变量是linux系统一个非常有趣的特性,它为系统中的每个处理器都分配了该变量的副本。这样做的好处是,在多处理器系统中,当处理器操作属于它的变量副本时,不需要考虑与其他处理器的竞争的问题,同时该副本还可以充分利用处理器本地的硬件缓冲cache来提供访问速度。
per-CPU按照存储变量的空间来源分为静态per-CPU变量和动态per-CPU变量,前者的存储空间是在代码编译时静态分配的,而后者的存储空间则是在代码的执行期间动态分配的。
静态per-CPU变量声明和定义
声明DECLARE_PER_CPU宏:
<include/linux/percpu-defs.h>
----------------------------------------------------------------
#define DECLARE_PER_CPU(type, name)
DECLARE_PER_CPU_SECTION(type, name, "")
#define DECLARE_PER_CPU_SECTION(type, name, sec)
extern __PCPU_ATTRS(sec) __typeof__(type) name
#define __PCPU_ATTRS(sec)
__percpu __attribute__((section(PER_CPU_BASE_SECTION sec)))
PER_CPU_ATTRIBUTES
<include/asm-generic/percpu.h>
-----------------------------------------------------
#ifndef PER_CPU_BASE_SECTION
#ifdef CONFIG_SMP
#define PER_CPU_BASE_SECTION ".data..percpu"
#else
#define PER_CPU_BASE_SECTION ".data"
#endif
#endif
对上的宏定义DECLARE_PER_CPU使用例子: DECLARE_PER_CPU(int, val)来详细说明。
DECLARE_PER_CPUT(int, val)
-> DECLARE_PER_CPU_SECTION(int, val, "")
-> extern __PCPU_ATTRS("") __typeof__(int) val
-> extern __percpu __attribute__((section(".data..percpu"))) int val
从上面的分析可以看出,该宏在源代码中声明了__percpu int val变量,该变量放在一个名为”.data..percpu”的section中。
定义DEFINE_PER_CPU宏:
<include/linux/percpu-defs.h>
----------------------------------------------------------------
#define DEFINE_PER_CPU(type, name)
DEFINE_PER_CPU_SECTION(type, name, "")
#define DEFINE_PER_CPU_SECTION(type, name, sec)
__PCPU_ATTRS(sec) PER_CPU_DEF_ATTRIBUTES
__typeof__(type) name
#ifndef PER_CPU_DEF_ATTRIBUTES
#define PER_CPU_DEF_ATTRIBUTES
#endif
对以上DEFINE_PER_CPU依然使用DEFINE_PER_CPU(int, val)做举例说明:
DEFINE_PER_CPU(int, val)
-> DEFINE_PER_CPU_SECTION(int, val, "")
->__PCPU_ATTRS("") __typeof__(int) val
-> __percpu __attribute__((section(".data..percpu"))) int val
可以看到,相比与DECLARE_PER_CPU,DEFINE_PER_CPU只是去掉了变量前面的extern, 所以使用DEFINE_PER_CPU(int,val)将会在源码中定义一个变量:
__percpu __attribute__((section(".data..percpu"))) int val
以下是per-CPU所有的形式的声明和定义:
声明和定义 | 解释 |
DECALRE_PER_CPU(type, name)/DEFINE_PER_CPU(type, name) | 普通的per-CPU声明和定义 |
DECLARE_PER_CPU_FIRST(type, name)/DEFINE_PER_CPU_FIRST(type, name) | 该per-CPU变量会在整个serction的最前面,所谓的first |
DECLARE_PER_CPU_SHARED_ALIGNED(type, name)/DEFINE_PER_CPU_SHARED_ALIGNED(type, name) | 该per-CPU在SMP系统下会对齐到cache line,在UP系统下不需要对齐 |
DECLARE_PER_CPU_ALIGNED(type, name)/DEFINE_PER_CPU_ALIGNED(type, name) | 在SMP和UP系统都对齐到cache line |
DECLARE_PER_CPU_PAGE_ALIGNED(type, name)/DEFINE_PER_CPU_PAGE_ALIGNED(type, name) | 该per-CPU变量必须页对齐 |
DECLARE_PER_CPU_READ_MOSTLY(type, name)/DEFINE_PER_CPU_READ_MOSTLY(type, name) | 该per-CPU变量必须是read mostly |
静态per-CPU变量的链接脚本
在上一节per-CPU变量的声明和定义中,可以看到最后的变量都是存在一个”.data..percpu”段中。
. = ALIGN((1 << 12));
.data..percpu : AT(ADDR(.data..percpu) - 0)
{
__per_cpu_load = .;
__per_cpu_start = .;
*(.data..percpu..first) . = ALIGN((1 << 12));
*(.data..percpu..page_aligned) . = ALIGN(64);
*(.data..percpu..read_mostly) . = ALIGN(64);
*(.data..percpu)
*(.data..percpu..shared_aligned)
__per_cpu_end = .;
}
可见,内核在编译链接的时候会把所有静态定义的per-CPU变量统一放到”.data..percpu”section中。链接器生成__per_cpu_start和__per_cpu_end两个变量表示该section的起始和结束地址。
动态分配per-CPU变量
- 分配函数
#define alloc_percpu(type)
(typeof(type) __percpu *)__alloc_percpu(sizeof(type),
__alignof__(type))
根据类型type,分配per-CPU变量
- 释放函数
void free_percpu(void __percpu *ptr)
释放ptr所指向的per-CPU变量。
使用静态per-CPU变量
因为per-CPU不能像一般的变量那样访问,必须使用内核提供的函数:
#define get_cpu_var(var)
(*({
preempt_disable();
this_cpu_ptr(&var);
}))
#define put_cpu_var(var)
do {
(void)&(var);
preempt_enable();
} while (0)
因为在get_cpu_var函数中关掉了抢占,所以在put_cpu_var中需要开启抢占。显然get函数和put函数需要匹配使用。 机智的你可能会问,为什么还需要关闭抢占,因为对于per-CPU来说已经是单处理器了。但是机智的你没有想到的是,在cpu访问per-CPU的时候,突然系统发生了一次紧急抢占,这时候cpu还在处理per-CPU变量,一旦被抢占了cpu资源,可能当前进程会换出处理器。所以关闭抢走还是必要的。
如果需要访问其他处理器的副本,可以使用函数per_cpu(var, cpu)
#define per_cpu(var, cpu) (*per_cpu_ptr(&(var), cpu))
使用动态per-CPU变量
#define get_cpu_ptr(var)
({
preempt_disable();
this_cpu_ptr(var);
})
#define put_cpu_ptr(var)
do {
(void)(var);
preempt_enable();
} while (0)
#define per_cpu_ptr(ptr, cpu) ({ (void)(cpu); VERIFY_PERCPU_PTR(ptr); })
以上get_cpu_ptr和put_cpu_ptr是在有抢占的情况下,需要关闭抢占使用。 而per_cpu_ptr(ptr, cpu)是根据per cpu变量的地址和cpu number,返回指定CPU number上该per cpu变量的地址。
原文地址:https://cloud.tencent.com/developer/article/1995966(版本归原作者所有,侵权删除)
相关推荐
- ARM64内核内存布局图(ARM64内核内存布局图解)
-
ARM64架构处理器采用48位物理寻址机制,最大可以寻找到256TB的物理地址空间。对于目前的应用来说已经足够了,不需要扩展到64位的物理地址寻址。虚拟地址也同样最大支持48位支持,所以在处理器的架构...
- ARM64 linux 调试串口通信(ARM64 linux 调试串口通信实验报告)
-
ARM64linux调试串口通信随着国产机普及很多工作也转移到了新平台上,以前调试设备用的笔记本电脑也换成新国产ARM64架构的了。本文以绿联CM204USB-A转RJ45Console调试线...
- Gentoo Linux 终止对 Itanium IA-64 体系的支持
-
GentooLinux是最后几个继续维护Itanium(IA-64)架构构建的Linux发行版之一,但现在这些已停产的英特尔处理器正在逐步淘汰。由于Linux6.7内核放弃了对Itan...
- 如何检查 Linux 系统是 32 位还是 64 位?这9个命令查的又快又准!
-
在Linux系统中,位数(bit)通常指的是CPU架构的位宽,即CPU一次能够处理的数据量。32位系统和64位系统在内存寻址能力、计算性能和软件支持上存在显著差异:「32位系统」:...
- 调出好画面!带你玩转飞凌嵌入式AM62x开发板的显示接口
-
来源:飞凌嵌入式官网“显示”是嵌入式开发板最为重要的功能之一,能够支持更多种类、更高规格的显示接口,意味着它能够应对的使用场景也更加广泛。每一款嵌入式开发板在出厂前都会做屏幕调试,但在客户的实际项目开...
- 带你玩转AM62x开发板的显示接口——LVDS的显示和修改方式
-
此前小编已为大家介绍过OK6254-C开发板的RGB显示和修改方式,今天将继续为大家介绍OK6254-C开发板的LVDS显示和修改方式。话不多说,我们进入正题。1、LVDS接口规格飞凌嵌入式OK62...
- AM335x继任者?AM6254性能解析(am2361p)
-
飞凌嵌入式FET6254-C核心板基于TISitaraTMAM62x系列工业级处理器设计开发,采用ARMCortex-A53架构,主频最高可达1.4GHz;并集成了丰富的接口,可广泛应用于的工...
- 如何在 Linux 发行版中安装微信和 QQ?
-
很多人因为工作沟通的原因需要用到微信和QQ,那么如何在Linux发行版中安装微信和QQ呢?以下是一些尝试的解决方法。QQ上一个版本的QQLinux版还是在2009年,而在现在,基于N...
- MySQL:物理备份工具XBK(mysql 备份方案)
-
XBK的优缺点:XBK(PerconaXtraBackup)优点:1.免费2.热备:备份期间不阻塞innodb和XtraDB表,但会阻塞Myisam表3.物理备份:备份恢复快XBK缺点:1.不支持远...
- AMD锐龙9 9950X CPU AIDA64跑分曝光:比7950X最高快45%
-
IT之家6月26日消息,Anandtech论坛网友igor_kavinski本周一发布帖子,分享了AMD旗舰锐龙99950X处理器的AIDA64基准测试跑分,与当前基于Z...
- qemu linux内核(5.10.209)开发环境搭建
-
版本信息宿主机:ubuntu20.04.6LTS(FocalFossa)虚拟机:ubuntu20.04.6LTS(FocalFossa)安装宿主机的步骤省略,和一般的在vmware中安...
- iPhone 7成刷机神器,成功运行乌班图、Linux、安卓
-
在智能机刚开始流行的时候,很多手机发烧友都喜欢刷机,当时民间大神们制作了特别多优化的ROM。后来随着手机硬件的逐步提升,以及厂商们对系统的大力优化,让大家对于刷机的兴趣也越来越少。不知道大家还记得这部...
- 12 款最佳免费开源 Linux 渲染器 | 火狐浏览器 130.0 版本更新
-
12款最佳免费开源Linux渲染器Linux的一大优势在于其拥有丰富的开源软件,可以满足艺术家、摄影师、动画师和设计师的需求。凭借价格低廉的硬件、免费的软件以及少量的才能和灵感,任何人都可以创...
- Linux中xargs 命令详解与实用场景
-
xargs是Linux系统中常用的命令行工具之一,它能够从标准输入构造参数列表并传递给其他命令使用,是处理批量数据操作时的重要利器。一、xargs的基本语法xargs[OPTION]...[C...
- Linux 磁盘扩容(非LVM)方式(linux扩容lvm磁盘容量)
-
今天接到一个客户的需求,CentOS的/分区容量太小了,OA系统所有的数据都在这下面,由于当时前同事给客户安装系统时采用了标准分区,而不是LVM逻辑卷,所以不支持在线扩容。df-hT查看磁盘使...
- 一周热门
- 最近发表
-
- ARM64内核内存布局图(ARM64内核内存布局图解)
- ARM64 linux 调试串口通信(ARM64 linux 调试串口通信实验报告)
- Gentoo Linux 终止对 Itanium IA-64 体系的支持
- 如何检查 Linux 系统是 32 位还是 64 位?这9个命令查的又快又准!
- 调出好画面!带你玩转飞凌嵌入式AM62x开发板的显示接口
- 带你玩转AM62x开发板的显示接口——LVDS的显示和修改方式
- AM335x继任者?AM6254性能解析(am2361p)
- 如何在 Linux 发行版中安装微信和 QQ?
- MySQL:物理备份工具XBK(mysql 备份方案)
- AMD锐龙9 9950X CPU AIDA64跑分曝光:比7950X最高快45%
- 标签列表
-
- linux 远程 (37)
- u盘 linux (32)
- linux 登录 (34)
- linux 路径 (33)
- linux 文件命令 (35)
- linux 是什么 (35)
- linux 界面 (34)
- 查看文件 linux (35)
- linux 语言 (33)
- linux代码 (32)
- linux 查看命令 (33)
- 关闭linux (34)
- root linux (33)
- 删除文件 linux (35)
- linux 主机 (34)
- linux与 (33)
- linux 函数 (35)
- linux .ssh (35)
- cpu linux (35)
- 查看linux 系统 (32)
- linux 防火墙 (33)
- linux 手机 (32)
- linux 镜像 (34)
- linux mac (32)
- linux ip地址 (34)