一次解决Linux内核内存泄漏实战全过程
ahcoder 2025-06-23 14:25 2 浏览
什么是内存泄漏:
程序向系统申请内存,使用完不需要之后,不释放内存还给系统回收,造成申请的内存被浪费.
发现系统中内存使用量随着时间的流逝,消耗的越来越多,例如下图所示:
接下来的排查思路是:
1.监控系统中每个用户进程消耗的PSS (使用pmap工具(pmap pid)).
PSS:按比例报告的物理内存,比如进程A占用20M物理内存,进程B和进程A共享5M物理内存,那么进程A的PSS就是(20 - 5) + 5/2 = 17.5M
2.监控/proc/meminfo输出,重点观察Slab使用量和slab对应的/proc/slabinfo信息
3.参考/proc/meminfo输出,计算系统中未被统计的内存变化,比如内核驱动代码
直接调用alloc_page()从buddy中拿走的内存不会被单独统计
以上排查思路分别对应下图中的1,2,3 :
在排查的过程中发现系统非常空闲,都没有跑任何用户业务进程。
其中在使用slabtop监控slab的使用情况时发现size-4096 不停增长
通过监控/proc/slabinfo也发现SReclaimable 的使用量不停增长
while true;
do
sleep 1 ;
cat /proc/slabinfo >> /tmp/slabinfo.txt ;
echo "===" >> /tmp/slabinfo.txt ;
done
由此判断很可能是内核空间在使用size-4096 时发生了内存泄漏.
接下来使用trace event(tracepoint)功能来监控size-4096的使用和释放过程,
主要用来跟踪kmalloc()和kfree()函数对应的trace event, 因为他们的trace event被触发之后会打印kmalloc()和kfree()所申请和释放的内存地址,然后进一步只过滤申请4096字节的情况。
#trace-cmd record -e kmalloc
-f 'bytes_alloc==4096' -e kfree -T
(-T 打印堆栈)
等待几分钟之后…
#ctrl ^c 中断trace-cmd
#trace-cmd report
以上步骤相当于:
等待几分钟之后…
#cp /sys/kernel/debug/tracing/trace_pipe /tmp/kmalloc-trace
从trace-cmd report的输出结果来看,很多kmalloc 对应的ptr值都没有kfree与之对应的ptr值
这就说明了cat进程在内核空间使用size-4096之后并没有释放,造成了内存泄漏。
相关视频推荐
内存泄漏的3个解决方案与原理实现,知道一个可以轻松应用开发工作
需要C/C++ Linux服务器架构师学习资料加qun812855908获取(资料包括C/C++,Linux,golang技术,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg等),免费分享
为了进一步精确定位到是使用哪个内核函数造成的问题,此时手动触发vmcore
#echo c > /proc/sysrq-trigger
然后使用crash工具分析vmcore:
#crash ./vmcore ./vmlinux.debug
读出上面kmalloc申请的ptr内存信息
(读取0xffff880423744000内存开始的4096个字节,并以字符形式显示)
发现从上面几个ptr内存中读出的内容都是非常相似,仔细看一下发现都是/proc/schedstat 的输出内容。
通过阅读相关代码发现,当读出/proc/schedstat内容之后,确实没有释放内存
然后发现kernel上游已经有patch解决了这个问题:
commit: 8e0bcc722289
fix a leak in /proc/schedstats
相关推荐
- Linux 下如何查看进程的资源限制信息?
-
简介Linux上的cat/proc/$pid/limits命令提供有关特定进程的资源限制的信息,其中$pid是相关进程的进程ID(pid)。该文件是`/proc文件系统的一部分,该...
- Linux入侵排查TOP10误区!90%工程师都踩过坑
-
导语“删除恶意文件却破坏了关键证据”“盲目重启系统导致攻击链中断”——这些看似合理的操作,可能让入侵排查陷入僵局。据统计,全球90%的Linux工程师在首次应对入侵事件时至少踩中3个排查误区。本文深度...
- 一文掌握怎么利用Shell脚本实现Linux系统资源监控管理程序
-
简介:在日常管理Linux服务器时,监控和管理系统资源是确保服务器稳定运行的关键。及时了解CPU、内存、硬盘以及网络的使用情况,可以帮助我们预防系统故障,并找出性能上的瓶颈。虽然有很多专业的监控工具,...
- Linux 下的 PM2 完整指南(linuxnmcli)
-
PM2是Node.js应用的专业级进程管理器,专为生产环境设计,提供应用守护、集群管理、日志监控等核心功能。核心特性应用守护:崩溃时自动重启零秒重载:热更新应用不停机(pm2reload)...
- linux中磁盘满了?一招教你快速清理
-
创作背景:当天部署服务时,发现无法部署,后来经过日志排查后发现服务器磁盘满了,查询资料后进行了清理。话不多说,直接上解决方法。操作一:1.查看磁盘大小:df-h2.直接在最上层进行排序:du-a...
- 适用于 Linux 的内存分析器:Bytehound
-
#暑期创作大赛#特征可用于分析内存泄漏,查看内存到底在哪里被消耗,识别临时分配并调查过多的内存碎片收集每次分配和释放以及完整的堆栈跟踪可以动态剔除临时分配,使您能够在很长一段时间内进行分析使用定制的堆...
- 一文讲清Python在Linux系统CPU、内存和磁盘管理方面的应用实例
-
摘要:在当今快速发展的IT运维和开发世界里,Linux系统凭借其高效能、高稳定性和开源的特性,在服务器管理、云计算服务以及大数据处理等众多领域中占据了核心位置。随着业务规模扩大,系统资源的监控与管理变...
- Linux系统磁盘分区管理LVM概念及扩容操作
-
LVM的全称为LogicalVolumeManager,逻辑卷管理。它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活性。通过L...
- ringbuffer 消息队列 内存池 性能优化利器
-
简约而不简单的ringbuffer最近在研究srsLTE的代码,其中就发现一个有意思的数据结构------ringbuffer。虽然,这是一个很基本的数据结构,但时,它在LTE这种通信协议栈系统中却大...
- Rocky Linux 9常用命令备忘录(不定时更新)
-
RockyLinux9常用命令备忘录(不定时更新)大家好,我是星哥,上次介绍了<RockyLinux9系统安装配置图解教程并做简单配置>:https://mp.weixin.qq...
- 理解Linux的Memory overcommit(linux reserved-memory)
-
MemoryOvercommit的意思是操作系统承诺给进程的内存大小超过了实际可用的内存。一个保守的操作系统不会允许memoryovercommit,有多少就分配多少,再申请就没有了,这其实有些浪...
- Linux systemd 4 命令深度对比:休眠、睡眠、关
-
"90%的人不知道Linux关机命令暗藏玄机?三招教你选对保命符"键盘突然没反应?电脑卡成PPT?这些崩溃瞬间可能都怪你选错了系统命令!今天就用咖啡厅偶遇的工程师视角,带你看懂Linu...
- 一次解决Linux内核内存泄漏实战全过程
-
什么是内存泄漏:程序向系统申请内存,使用完不需要之后,不释放内存还给系统回收,造成申请的内存被浪费.发现系统中内存使用量随着时间的流逝,消耗的越来越多,例如下图所示:接下来的排查思路是:1.监控系统中...
- Linux系列:聊一聊 SystemV 下的进程间共享内存
-
一:背景1.讲故事昨天在分析一个linux的dump时,看到了这么一话警告,参考如下:0:000>!eeheap-gc***WARNING:Unabletoverifyt...
- linux收发网络包过程(linux收包流程)
-
网络模型由于OSI模型实在太复杂,提出的也只是概念理论上的分层,并没有提供具体的实现方案事实上,我们比较常,也比较实用的是四层模型,即TCP/IP网络模型,Linux系统正是按照这套网络模型...
- 一周热门
- 最近发表
- 标签列表
-
- linux 远程 (37)
- u盘 linux (32)
- linux 登录 (34)
- linux 路径 (33)
- linux 文件命令 (35)
- linux 是什么 (35)
- linux 界面 (34)
- 查看文件 linux (35)
- linux 语言 (33)
- linux代码 (32)
- linux 查看命令 (33)
- 关闭linux (34)
- root linux (33)
- 删除文件 linux (35)
- linux 主机 (34)
- linux与 (33)
- linux 函数 (35)
- linux .ssh (35)
- cpu linux (35)
- 查看linux 系统 (32)
- linux 防火墙 (33)
- linux 手机 (32)
- linux 镜像 (34)
- linux ip地址 (34)
- linux 用户查看 (33)