细分析du和df的统计结果为什么不一样

今天有个人问我du和df的统计结果为什么会不同。给他解析了一番,后来想想还是写篇文章从原理上来分析分析。

我们常常使用du和df来获取目录或文件系统已占用空间的情况。但它们的统计结果是不一致的,大多数时候,它们的结果相差不会很大,但有时候它们的统计结果会相差非常大。

例如:

##### df的统计结果
[root@linuxidc ~]# df -hT
Filesystem          Type  Size  Used Avail Use% Mounted on
/dev/sda2          ext4    18G  1.7G  15G  11% /
tmpfs              tmpfs  491M    0  491M  0% /dev/shm
/dev/sda1          ext4  239M  68M  159M  30% /boot
//192.168.0.124/win cifs  381G  243G  138G  64% /mnt

##### du对根目录的统计结果
[root@linuxidc ~]# du -sh /  2>/dev/null
244G    /

df中"/"的使用空间是1.7G,但是du的结果却是244G。这里du的统计结果大于df。

再看看对/boot分区的统计结果。

[root@linuxidc ~]# df -hT /boot;echo;du -sh /boot
Filesystem    Type  Size  Used Avail Use% Mounted on
/dev/sda1      ext4  239M  68M  159M  30% /boot

66M    /boot

du的结果是66M,df的结果是68M,相差不大,但df的结果大于du。

1.文件存储和删除的底层过程

这里简单说明下文件系统相关的底层机制。

首先说明下文件是怎么存储到文件系统中的。假如要存储a.txt到/tmp目录下。

细分析du和df的统计结果为什么不一样

当a.txt文件要存储到/tmp下时:

(1).首先从inode table中找一个空闲的inode号分配给a.txt,例如2222。再将inode map(imap)中2222这个inode号标记为已使用。

(2).在/tmp的data block中添加一条a.txt文件的记录。该记录中包括一个指向inode号的指针,例如"0x2222"。

(3).然后从block map(bmap)中找出空闲的data block,并开始将a.txt中的数据写入到data block中。每写一段空间(每次分配一段空间)就从bmap中找一次空闲的data block,直到存完所有数据。

(4).设置inode table中关于2222这条记录的data block指针,通过该指针可以找到a.txt使用了哪些data block。

当要删除a.txt文件时:

(1).在inode table中删除指向a.txt的data block指针。这里只要一删除,外界就找不到a.txt的数据了。但是这个文件还存在,只是它是被"损坏"的文件,因为没有任何指针指向数据块。

(2).在imap中将2222的inode号标记为未使用。于是这个inode号就被释放,可以被后续的文件重用。

(3).删除父目录/tmp的data block中关于a.txt的记录。这里只要一删除,外界就看不到也找不到这个文件了。

(4).在bmap中将a.txt占用的block标记为未使用。这里被标记为未使用后,这些data block就可以被后续文件覆盖重用。

考虑一种情况,当一个文件被删除时,但此时还有进程在使用这个文件,这时是怎样的情况呢?外界是看不到也找不到这个文件的,所以删除的过程已经进行到了第(3)步。但进程还在使用这个文件的数据,也能找到这个文件的数据,是因为进程在加载这个文件的时候就已经获取到了该文件占用哪些data block,虽然删除了文件,但bmap中这些data block还没有标记为未使用。

2.du统计的原理

du是通过stat命令来统计每个文件(包括子目录)的空间占用总和。因为会对每个涉及到的文件使用stat命令,所以速度较慢。

1.如果统计目录下挂载了其他文件系统,那么也会对这个文件系统进行统计。

例如"du -sh /"的时候,会统计所有分区的文件,包括挂载上来的。正如本文开头统计的"/"一样,du的结果是244G,明显比df统计的结果大,就是因为将某个分区挂载到了/mnt目录下。

##### df的统计结果
[root@linuxidc ~]# df -hT
Filesystem          Type  Size  Used Avail Use% Mounted on
/dev/sda2          ext4    18G  1.7G  15G  11% /
tmpfs              tmpfs  491M    0  491M  0% /dev/shm
/dev/sda1          ext4  239M  68M  159M  30% /boot
//192.168.0.124/win cifs  381G  243G  138G  64% /mnt

##### du对根目录的统计结果
[root@linuxidc ~]# du -sh /  2>/dev/null
244G    /

2.如果文件被删除,即使被其他进程引用了,du命令也无法对其统计。因为stat命令找不到这个文件

3.可以跨分区统计某些你想统计的文件大小总和。因为它们都能被stat找到并统计。

例如:

统计Linux下所有img文件的大小。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/12860.html