百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

在linux下如何高效的删除一个大文件或者目录

ahcoder 2025-02-07 16:20 19 浏览

一. 简介

文件删除是 Linux 管理的重要组成部分。无论是手动还是使用脚本,我们都会将文件删除作为升级、日志轮换、备份和许多其他活动的一部分。由于目录可能包含大量文件,了解如何以最佳方式处理它们可以节省大量时间。

在本教程中,我们将探索如何在 Linux 中高效地删除一个大目录。首先,我们一般性地讨论文件删除。之后,我们将展示大型目录何时、如何以及为何出现。接下来,我们将测试几种工具在处理许多文件时的功能和性能。

我们使用 GNU Bash 5.1.4 在 Debian 11 (Bullseye) 上测试了本教程中的代码。它是 POSIX 兼容的,应该可以在任何这样的环境中工作。

二. 文件删除

在 Linux 下,文件是inode。inode 存储文件元数据,包括文件内容所在的位置。另一方面,目录是指向 inode 的名称列表。

因此,有多种删除文件的方法。

2.1 链接删除

一旦文件没有硬链接或句柄,它的索引节点就可用了。发生这种情况时,内核会将 inode 编号标记为空闲:

$ touch /file.ext
$ tail --follow /file.ext &
[1] 667
$ lsof /file.ext
COMMAND PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
tail    667 root    3r   REG   8,16        0  666 file.ext
$ rm /file.ext

首先,我们创建一个文件并在tail中打开它以供观看。之后,我们使用lsof(列出打开的文件)命令来确认文件句柄是否存在。最后,我们删除实际文件。

结果,由于打开的句柄,我们只有挥之不去的 inode。杀死后台尾进程将清除它。

2.2 清除

重要的是,文件元数据和内容可以在存储中保持完整,直到被覆盖,即被清除。此行为在新旧ext文件系统之间有所不同。这就像卖掉一栋房子,里面还保留着上一个主人的所有东西。这对我们意味着什么?

我们不需要费心打电话给搬运工。同样,用数据重写存储段成本高昂的主要原因有两个:缓慢和磨损。

由于 inode 最多为千字节,ext3和更高版本确实会将它们清零,但不会费心清除内容。此行为与文件容器有何关系?

三. 创建一个大目录

从上面我们可以推断出删除目录最有效的方法是删除所有引用——目录和内容。实际上,这意味着大小不是问题,但对象数量才是问题。

存在具有数千或数百万条目的文件存储的原因有很多:

日志轮换
数据库文件
分布式文件系统
具体用例
重要的是,内核处理许多文件的能力在很大程度上取决于文件系统类型。例如,XFS对于多个小文件可能会很慢,而ReiserFS是专门为处理它们而设计的。

现在,让我们创建一个包含 100 万个文件的目录:

$ mkdir /dir1m
$ for $f in {1..1000000}; do touch /dir1m/$f.ext; done

我们将使用一些删除工具来测试/dir1m 。随着时间的推移,我们将看到操作运行的速度。

四. 用rm删除一个大目录(Remove)

经典的rm确实只取消链接文件而不清除它们。

但是,有几种方法可以对目录执行此操作,我们将研究这些方法。

4.1. 通配符

将rm与globbing结合使用,我们可能会遇到问题:

 $ rm --force /dir1m/*.ext
/bin/rm: cannot execute [Argument list too long]

这里的问题是通配符扩展意味着所有 100 万个文件名都成为参数。因此,命令行变得太长,shell 拒绝执行。

但是,如果我们想要删除整个目录,就没有理由使用这种语法。

4.2. 递归

在处理许多文件时,–recursive ( -r )标志是最好的。事实上,有必要使用递归来删除目录或子目录:

$ time rm --recursive --force /dir1m
real    13.57s
user    1.04s
sys     8.11s
cpu     67%

这是我们的第一个真实结果:删除 100 万个文件大约需要 14 秒。那么我们有什么替代标准rm的方法呢?

五. 使用find查找和删除文件

当然我们可以使用find命令来删除文件。但是,它将使用更多的资源和更多的时间来完成。

一项改进是使用 GNU -delete开关来查找:

$ time find /dir1m -delete
real    29.93s
user    1.11s
sys     8.40s
cpu     31%

这样做可以避免rm命令调用。此外,我们可以通过xargs获得更好的性能:

$ time find /dir1m -print0 | xargs --null --no-run-if-empty rm --recursive --force
real    12.80s
user    1.16s
sys     8.62s
cpu     76%

基本上,我们只是输出以 null 分隔的文件路径并将它们传递给运行rm的xargs。对于单个目录,使用或不使用find或xargs的性能是相同的。

除了最后一个,所有这些选项都很慢,主要是因为它们不使用带有–recursive的rm内部迭代。此外,他们不必要地检查每个文件。这只有在我们过滤被删除的内容时才有意义。

六. 使用rsync删除大目录

不太可能有效删除的选项是rsync命令:

$ mkdir /void
$ time rsync --archive --delete /void/ /dir1m/
real    15.74s
user    1.50s
sys     12.47s
cpu     88%
$ rm --recursive --force /void /dir1m

首先,我们创建一个空目录:/void。接下来,我们通过–archive和–delete标志将/dir1m同步到空的/void并删除剩余部分。

与rm类似,rsync使用unlink() 系统调用。与rm不同,rsync没有做太多其他事情。

还有另一个选项以相同的方式工作。

七. 使用perl删除目录内容

事实上,perl不仅对文本处理很有用,对文件操作也很有用。用 C 编写,它也适用于低级系统调用:

$ cd /dir1m
$ time perl -e 'for(<*>){((stat)[9]<(unlink))}'
real    17.05s
user    2.57s
sys     13.36s
cpu     93%

在这里,我们使用-e(执行)来执行单行代码,它通过<*>对当前目录中的所有文件调用unlink()。

由于脚本语言及其解释器的开销,此方法比rsync和rm稍慢。尽管如此,perl还是提供了精确过滤的选项,如果我们需要的话。

八. 总结

在本文中,我们讨论了在 Linux 中高效删除目录的方法。

在我们的测试中,明显的赢家是rm命令。然而,如果我们想对删除的内容有一些控制,那么find和perl是可行的选择。

总之,我们应该始终定义要做什么以选择最有效的方式来做这件事。

相关推荐

全新架构!腾讯推出基于NT架构的全新Linux版QQ

据之前的报道,QQ作为经典的聊天软件在经历多次的功能调整后,正式选择基于新技术开发新版本的QQ。而在今日,基于NT架构的全新QQLinux版已结束内测,并正式为其推出官网新界面,并为所有用户提供下载...

Linux系统区别英文字母大小写(linux是否区分大小写)

我们一般在Windows系统开发程序并进行功能测试,如果上线的时候选择Windows服务器的话,是什么问题都没有。但是当选择Linux系统的时候,就必须注意Linux系统是严格的区别文字大小。Wind...

微软赞助LinuxCon北美峰会:向Linux表达爱意

IT之家讯8月24日消息,LinuxCon北美峰会在美国西雅图举行,与往年相比本次峰会最大的亮点是:微软作为赞助商出席了峰会,再次向世人宣布“微软爱Linux”。在本次峰会中,微软为大家准备了印有“...

现在越来越注重知识产权,你在设计中有知道哪些字体是可商用吗?

在设计海报中字体是很重要的一部分,近年来知识产权的越来越注重,不少设计公司用了有版权字体踩坑也时常可见。那么我们怎样去区别字体有没有版权呢。(文章结尾有文章领取方法)1.Windows库中自带的字体...

Linux 快速安装当前目录及子目录下的所有字体

源码随时更新sh/fonts-install.sh·main·JetsungChan/sh-files·极狐GitLabsh-files/fonts-install.shatma...

开源字体编辑器TruFont(开源字体库)

TruFont是一款跨平台的开源字体编辑器,它支持.otf、.ttf、.ttx、.pfa、.pfb、.woff等字体格式。支持Linux、MacOSX、以及Windows平台。htt...

告别字体侵权,100+个免费可商用字体大集合(附字体包)

作为设计师,我们在作图时要使用大量的字体来达到我们想要的效果,但是字体都是有版权的,据说前几年暴风、保洁被方正告,赔了几百上千万(我的天呐,吓死宝宝了)最近,在群里看到了又有人收到律师函,去年底我也收...

办公小技巧:告别侵权 PPT字体自己造

很多朋友还不知道,我们每天面对的字体都是有版权保护的,如果对这方面的内容不了解,一不小心就可能造成侵权。那么我们在日常设计PPT文稿的时候,如何避免字体侵权呢?首先我们得懂得如何查看版权信息,另外还需...

在linux中添加Windows字体(linux使用windows字体)

linux中添加字体第一步:WINDOWS/FONTS中的字体文件,上传到linux服务器上/usr/share/fonts/myfonts第二步:将copy到的字体文件夹copy到系统字体文件夹中并...

在Ubuntu系统中如何更换字体(ubuntu如何调整字体大小)

在Ubuntu中,默认情况下已经安装了很多字体,但是可能有一段时间你需要安装一些额外的字体。本文介绍如何在Ubuntu18.04中安装字体。环境Ubuntu18.04.3LTS下载并解压字体首先...

在麒麟Linux上安装Elasticsearch的步骤

在麒麟Linux上安装Elasticsearch的步骤如下,分为基于Debian(如Ubuntu)和基于RPM(如CentOS)的两种常见场景。请根据你的麒麟Linux版本选择对应的安装方式:1.系...

Linux实战之:version `GLIBC_2.27&#39; not found

通过ldd命令查看缺失的依赖,发现有个插件一直提示:“/lib/x86_64-linux-gnu/libm.so.6:version`GLIBC_2.27'notfound”,通过ap...

32、64位版本!揭Ubuntu 14.10系统性能

1Ubuntu14.10新平台性能比拼从phoronix.com的消息获悉,Ubuntu的支持人BryanQuigley正在考虑将Ubuntu16.04作为最后一个32位发行版本。2016年4月...

Ubuntu 25.04内核确定,Linux 6.14带来全新体验

IT之家12月14日消息,Canonical工程师TimoAaltonen昨日(12月13日)在Ubuntu论坛发帖,确认Ubuntu25.04发行版将使用Linux...

2020年最漂亮的7个Linux发行版(最新linux发行版)

请关注本头条号,每天坚持更新原创干货技术文章。如需学习视频,请在微信搜索公众号“智传网优”直接开始自助视频学习1.前言对于想学习Linux的朋友们,心中一定有疑问,哪个Linux版本比较好入门,Li...