百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

为什么复制大文件时进度条在后半段突然加速?

ahcoder 2025-04-06 13:09 79 浏览

当你第一次打开一个10MB大小的PPT文件时,可能需要等待5秒钟,然而,第二次再打开同一个文件时几乎秒开,这是为什么呢?

当你复制粘贴一个大文件时,进度条在开始时进展缓慢,但到了后半段突然加速。这又是为什么?

操作系统是如何做到“越用越快”,“越用约顺手”的呢?实际上,这一切都归功于计算机中的一项关键技术——PageCache。

存储介质的性能鸿沟

计算机系统中,不同存储设备的速度差异巨大。机械硬盘与内存的读写速度能有百倍的差距(这里引用的数据相对较远,比较新的没找到):

这种差距意味着,直接从磁盘读取数据会极大地影响系统的响应速度和用户体验,为了弥补这一鸿沟,操作系统引入了PageCache机制:

道理和CPU和内存之间增加L1、L2、L3 cache一样,只不过L1、L2、L3 cache实现在硬件层面——CPU中,而pagecache实现在软件层面——操作系统中。

什么是PageCache?

PageCache由物理内存中的页面组成,这些页面的内容对应于磁盘上的物理块:

物理内存中的页面当然主要用来装入运行的进程,剩下的空闲内存用来当做PageCache:

因此pagecache的大小是动态的,它可以增长以占用任何空闲内存:

也可以缩小以缓解内存压力:

文件读取

当一个进程发起read 系统调用时,内核会首先检查所需的数据是否在页面缓存中。如果在缓存中,内核可以跳过访问磁盘,直接从内存中读取数据,这称为缓存命中(cache hit):

如果数据不在pagecache中,称为缓存未命中(cache miss),此时内核必须发起磁盘I/O 操作,从磁盘读取数据。数据从磁盘读取后,内核将数据填充到页面缓存中,以便任何后续的读取操作都能直接从缓存中进行。

并不是整个文件都需要被缓存,页面缓存可以将A文件完整缓存,而只缓存B文件的一个或两个页面,缓存什么取决于被访问的内容,假设某个文件有4页,但经常被使用的是第1号页,那么pagecache中可能就只有这一页:

这解释了为什么第一次打开一个10MB大小的PPT文件时,可能需要等待5秒钟,然而,第二次再打开同一个文件时几乎秒开,因为第一次打开PPT后整体PPT是通过磁盘IO加载到内存的,而第二次访问PPT将命中pagecache,如果全部命令那么这将会纯内存操作,当然能做到秒开。

文件写

当一个进程通过write系统调用写入磁盘时,会发生什么呢?

操作系统通常采用write-through策略,内核将进程的写操作直接写入pagecache而不会立刻同步更新磁盘,因此在这种策略下文件写也是纯内存操作,速度非常快,进程不会被阻塞:

复制粘贴大文件时数据需从磁盘先加载到PageCache,受限于磁盘顺序读取速度进度条增长缓慢,此时复制速度取决于磁盘读取性能。当文件数据已完全加载到 PageCache 后,后续读取直接从内存完成。

写数据时数据会暂存于内存,进度条反映的是写入PageCache的完成度,而非实际落盘进度,此时写速度从磁盘 I/O 提升到内存访问速度,进度条会突然加速。

待更新到磁盘的页会被内核标记,然后内核周期性地将这些页面异步写回磁盘,将内存中的缓存与磁盘的数据进行同步:

当然,除了基本的读写流程外,PageCache还包含了一些关键机制来进一步优化性能。例如,预读(Read-ahead)技术能够预测性地加载后续的数据块,使得顺序读取大文件时效率更高。此外,为了管理有限的内存资源,PageCache采用了LRU(最近最少使用)算法来进行缓存替换决策。

PageCache带来了显著的性能优势,尤其是在重复访问同一文件或顺序读取大文件时表现尤为突出。比如在编译代码、频繁读取配置文件、视频编辑及处理数据库日志等场景下,PageCache都能发挥重要作用。

实验验证

接下来在一台Linux机器上验证一下pagecache,首先创建一个大小为1G、内容为随机数的文件:

dd if=/dev/urandom of=testfile bs=1M count=1024

然后清空系统中所有的pagecache,可以使用这个命令:

sync && echo 1 > /proc/sys/vm/drop_caches

接着我们读取一下刚创建的这个文件,并统计完全读取整个文件需要的时间,由于在读取文件之前清空了所有pagecache,因此读取testfile文件时将触发磁盘IO:

$ time cat testfile > /dev/null
real    0m6.176s
user    0m0.028s
sys     0m0.731s

这里输出的含义是:

  • real (实际时间): 总共经过的时间,包括所有等待时间(如I/O等待)。

  • ouser (用户CPU时间): 程序在用户模式下执行所花费的时间。

  • sys (系统CPU时间): 程序在内核模式下执行所花费的时间。

可以看到,读取这1个G的文件总耗时达到了6.1s左右,因为这涉及磁盘IO,因此读取速度缓慢,读完后这个文件将被放到pagecache,接着我们再读一次:

$ time cat testfile > /dev/null 
real    0m0.309s
user    0m0.011s
sys     0m0.298s

可以看到,这次读取文件只用了0.3s,相差了接近20倍,就是因为第二次读取几乎是纯内存操作。

现在你应该明白pagecache的作用了吧。

作者:岛主小风哥


转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号


来源:码农的荒岛求生

编辑:小咕咕


相关推荐

Java程序员必备的Linux命令速查表

Java程序员必备的Linux命令速查表在Java开发的世界里,Linux就像一位默默支持的幕后英雄。作为一名Java开发者,掌握一些基本的Linux命令,不仅能提高工作效率,还能让你在团队中显得格外...

Linux 命令速查手册:这 30 个高频指令,拯救 90% 的运维小白!

在Linux系统的世界里,命令行是强大的武器。对于运维小白而言,掌握一些高频使用的Linux命令,能极大提升工作效率,轻松应对各种系统管理任务。今天,就为大家奉上精心整理的30个Linu...

linux磁盘管理相关命令(linux磁盘管理常用命令)

磁盘的使用情况会直接影响系统的性能,因此我们经常会用到以下命令,主要围绕:fdisk:磁盘分区df:文件系统的磁盘空间占用情况du:文件目录的磁盘空间占用情况查看磁盘关系lsblk查看磁盘分区情况fd...

第四章 Linux常用shell命令-4.5.磁盘管理

主要介绍一下跟磁盘管理相关命令,有比较多的内容摘抄自网络,如有侵权,请及时联系我删除:显示目前在Linux系统上的文件系统磁盘使用情况统计:df创建和维护分区表的程序:fdisk将磁盘分区或镜像挂...

Linux新手必备:20个高效命令轻松掌握!

Linux基本命令使用指南在现代计算机操作系统中,Linux因其开放性、灵活性和强大的功能,广泛应用于服务器和开发环境中。作为技术人员,掌握Linux的基本命令是非常重要的。在本文中,我们将重点介绍2...

每日必学Linux命令:ls命令(linux命令详解之ls命令)

ls命令是linux下最常用的命令。ls命令就是list的缩写缺省下ls用来打印出当前目录的清单如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单。通过ls命令不仅可以查看linux文件...

Linux系统dev和proc目录详解(linux dev/sr0)

简介:Linux系统里的/dev和/proc目录那可是相当重要的系统文件。在Linux系统中,/dev目录专门用来存放设备文件。不光有设备文件,系统里还有好多特殊功能也是通过设备的形式...

Linux切换目录之cd命令(linux切换指定目录)

1.基本概念1.1命令作用当我们在Linux系统上工作时,做得相当多的一项任务就是在不同的目录之间进行切换,这时就需要用到cd命令了。cd是"changedirectory"的首...

Linux切换目录(cd命令)(linux如何切换到目录)

cd命令,是ChangeDirectory的缩写,用来切换工作目录。Linux命令按照来源方式,可分为两种,分别是Shell内置命令和外部命令。所谓Shell内置命令,就是Shel...

MongoDB数据库的快速部署和启动(mongodb的使用教程)

一、Mongodb介绍常见数据库介绍关系数据库RDBMS设计表结构,通过SQL语句进行操作。连表关系常见的关系型数据库:mysqloracle(商业)DB2(IBM)sqlserver(微软...

5分钟学会网络服务搭建,飞凌i.MX9352 + Linux 6.1实战示例

在“万物互联”的技术浪潮下,网络服务已成为连接物理世界与数字世界的核心纽带,它不仅赋予了终端设备“开口说话”的能力,更构建了智能设备的开发范式。本文就将以飞凌嵌入式OK-MX9352-C开发板(搭载了...

centos安装geoserver并配置开机启动

前提条件:服务器已经安装了java环境一、下载下载地址:http://geoserver.org/release/maintain/下载后文件名为:geoserver-2.19.3-bin.zip二、...

开机启动流程(开机流程图)

grubandbootCentos5,6的开机启动流程grubCentos7的开机启动流程Centos5,6的开机启动流程initrd/initramfs一般存储在/boot目录下,以.img...

Linux cron服务概述(crontab服务)

cron是Linux/Unix系统中一个非常重要的后台服务(守护进程),用于在预定的时间间隔自动执行命令或脚本。它使得自动化重复性任务成为可能,例如日志清理、数据备份、系统维护等。1.cron...

CentOS 8利用rc.local进行开机自启动的配置

CentOS8利用rc.local进行开机自启动的配置CentOS8linux系统是不建议使用rc.local进行开机自启动的,建议创建systemdservice。我们为了方便以后多一个配置...