linux各发行版大量磁盘操作后cache缓存太高,桌面卡死的分析
Tofloor
poster avatar
peacekeep
deepin
2020-07-18 03:01
Author
本帖最后由 peacekeep 于 2020-8-2 09:06 编辑

         刚刚看到有人说深度文件管理器在ntfs拷贝大文件会出现速度慢、系统卡死的情况。正好,我这两天刚刚测试了类似的问题:在linux各发行版下,大量磁盘操作后buffer/cache缓存过高,桌面卡死的情况。
         首次发现这个问题是前两年编译aosp时,使用的系统时Ubuntu16.04。编译结束后,桌面直接卡死,无法操作。当时以为是系统过热的问题,毕竟是用的笔记本,直接强制关机了。后来多次出现同样的问题,感觉很奇怪,就用free -h查看了一下内存使用情况。结果显示内存 used 很正常1-2G左右吧,而free仅省了几百M,大量内存被buff/cache占用。
         这个buff/cache是干什么的呢?详细的可以看一下下面这个博客。
https://blog.csdn.net/u013427969/article/details/83315104

简单说,就是读写磁盘的时候,内核会在内存中缓存磁盘的内容,便于以后读取方便,提高磁盘的I/O性能。内存将要耗尽的时候,内核又会回收这部分内存给其他进程使用。这样buff/cache缓存所占据的内存其实是可用内存。理论上,即使buff/cache占据了大部分的内存,也不会影响系统的稳定性。
          不过,在linux桌面系统中,进行大量磁盘读写操作后,常见的就是拷贝大文件或者大量小文件,桌面就会卡死。使用下面3条任意一个释放buff/cache缓存后,均能改善。
  1. echo 1 >  /proc/sys/vm/drop_caches
  2. echo 2 >  /proc/sys/vm/drop_caches
  3. echo 3 >  /proc/sys/vm/drop_caches
Copy the Code
         因此当时一直认为是内存不足导致的卡顿,也没多想。这几天拷贝文件时又遇见了这个问题,就想着如何调整内核参数限制buffer/cache。
  1. ##  调整内核参数,控制内存
  2. vm.dirty_ratio = 1
  3. vm.dirty_background_ratio=1
  4. vm.dirty_writeback_centisecs=2
  5. vm.dirty_expire_centisecs=1500
  6. vm.drop_caches=3
  7. vm.swappiness =100
  8. vm.min_free_kbytes=409600
  9. vm.vfs_cache_pressure=200
  10. vm.overcommit_ratio = 10
  11. vm.overcommit_memory=2
  12. vm.lowmem_reserve_ratio=32 32 8
  13. kern.maxvnodes=3
Copy the Code
        实际上,多次调整并没有改善大量文件拷贝过程中出现的卡顿问题。但在调整过程发现,卡顿出现的时间点跟缓存释放,buff/cache降低,free增加的时间点基本吻合。导致卡顿的问题可能不是内存太小,而是buff/cache释放的过程。为此,使用如下脚本(drop_caches.sh)进行了测试:
  1. while true
  2. do
  3. echo 2 > /proc/sys/vm/drop_caches
  4. done
Copy the Code
        用root用户运行该脚本,观察桌面,卡的很,比之前拷贝文件都卡,鼠标键盘延迟非常大。不仅是鼠标键盘,播放视频时,画面也是卡成狗,但声音完全正常。
         测试echo 3 > /proc/sys/vm/drop_caches有同样的效果,但是echo 1 > /proc/sys/vm/drop_caches没有影响。 按照内核文档的说法,echo 2 > /proc/sys/vm/drop_caches 是 to free dentries and inodes 的 ,也就这个过程导致了桌面卡顿。(echo 3 > /proc/sys/vm/drop_caches 包括可1和2的作用,所以也卡)。
         linux系统那么多年了,作为非常常用的服务器操作系统,大量的I/O操作在所难免,不至于连这点内存管理的能力都没有。感觉问题肯定在内核之外。那么服务器上没事,桌面系统有事,那基本就是桌面的事了。那么会不会是某个desktop environment(桌面环境)的问题?并不。在Gnome、KDE、DDE等多个桌面环境里都是一样的。那最有可能的就是Xorg了。
         对此,又在终端环境和安卓X86环境下运行了同样的脚本以及大量文件拷贝工作,系统运行都很正常,无论是视频播放还是其他操作,都没有输入和画面输出的卡顿问题。可以基本确认是Xorg或与其相关组件的导致的系统卡顿了。不过还有几个疑点,一是安卓x86内核跟桌面linux内核的配置略有不同,二是没有针对wayland测试。后面统一一下内核对安卓x86再测试一下,还有就是用weston环境测试一下。

2020.7.19
1、在weston环境下测试,关闭Xorg,依然卡顿,不过整体流畅度比Xorg要高。在wayland的KDE环境下效果跟Xorg下相当。
2、根据rekees2020 的反馈关闭swap之后,就不存在卡顿的问题了。实际测试,swapoff -a以后确实就不卡了!运行drop_caches.sh脚本也不卡。可见问题同swap有关。

2020.7.20
1、Android X86环境(openthos live)测试:默认swap是关闭的,运行drop_caches.sh脚本以及大量文件拷贝都不卡顿。手动swapon以后运行drop_caches.sh脚本不卡,swap并没有占用;大量文件拷贝以后卡顿,swap仅占用40-50M。
2、Ubuntukylin 20.04(livecd)测试:swapon的情况下,运行drop_caches.sh脚本以及大量文件拷贝都不卡顿。运行drop_caches.sh,swap并没有占用;大量文件拷贝swap仅占用10-60M。(内核版本号5.4.0-40)

2020.7.21
1、根据rekees2020 的反馈,开启zswap后可以在保持swap分区的情况下,不卡顿。
测试:root用户下,echo 1 > /sys/module/zswap/parameters/enabled,运行drop_caches.sh脚本以及大量文件拷贝都不卡顿。
zswap的开启方式可以参考内核文档:https://www.kernel.org/doc/Documentation/vm/zswap.txt及https://ywnz.com/linuxjc/5492.html
简单说有三种方式:一是在启动内核时CMDLINE里添加,比如修改grub.cfg,增加zswap.enabled=1;二是系统启动完成后在root用户下echo 1 > /sys/module/zswap/parameters/enabled,三是通过第三方管理软件开启,例如systemd-swap。
2、KDE NEON更新内核至5.4.0-40之后,发现问题竟然解决了,哈哈哈。运行drop_caches.sh脚本以及大量文件拷贝都不卡,swap占用始终为0。这么说,这个问题应该算是历史问题了。linux kernel开发组也许是发现了问题根源并解决了。回头看看commithistory是哪里的问题。
2020.7.22
1、在UOS 个人体验版(内核版本:5.3.0-3-amd64)中,echo 1 > /sys/module/zswap/parameters/enabled开启zswap后,运行drop_caches.sh脚本测试,系统卡顿减轻,但是依然是有明显的卡顿。swapoff -a 彻底关闭swap,运行drop_caches.sh脚本完全不卡。UOS官方源没有5.4及以后的内核,故没有测试。

2020.7.25
1、UOS中使用自己编译的5.4.0和5.4.44内核(kernel.org官方源码),swapon&zswapoff的情况下卡顿依然。config文件:config.5.4.zip

2、UOS中使用自己编译的5.7.7内核(kernel.org官方源码),swapon&zswapoff的情况下完全无卡顿。config文件:config-5.7.zip

2020.7.26

1、UOS中使用自己编译的5.4.0、5.4.44、5.4.45、5.4.53内核(kernel.org官方源码),swapon&zswapoff的情况下卡顿依然。config文件与:5.7的接近
2、UOS中使用自己编译的5.5.0、5.5.0-rc1内核(kernel.org官方源码),swapon&zswapoff的情况下完全无卡顿。config文件与:5.7的接近
3、以上所有不卡顿的内核,在执行drop_caches.sh脚本测试及大量文件拷贝时,虽然开启了swap,但是系统很少会去使用swap,基本上就是不去用。所有卡顿的内核都会去用swap,比较频繁的使用,但使用的空间量不大。

8.2
卡顿的直接原因极有可能是系统回收内存的过程中把桌面要用的一部分内存页回收到swap里了。所以关闭swap就不卡了,而使用zswap可以缓解卡顿。
Reply Favorite View the author
All Replies
3 / 5
To page
avatar
rekees2020
deepin
2020-07-19 01:30
#41
https://bbs.deepin.org/post/197314
另外还有一个可能就是如果是机械硬盘,大家都知道,在win下用软件测试硬盘时,会发现有些硬盘在使用久了后 ...

局域网上的文件服务器是机械硬盘,本地是固态硬盘
卡顿最严重的情况是从本地一个位置拷到本地另外一个位置,卡顿最轻微的情况是从本地拷到文件服务器
Reply View the author
avatar
peacekeep
deepin
2020-07-19 03:11
#42
mcaoser 发表于 2020-7-18 16:27
linux的cache和buffer,一个是读缓存,一个是写缓冲,通常是为下次读与本次写硬盘提供加速或缓冲功能的,使 ...

理论上是这样。测试结果显示就是在释放缓存的时候桌面会卡死。而且就是xorg卡死,其他终端都没影响。感觉就是xorg或相关组件的bug。
Reply View the author
avatar
peacekeep
deepin
2020-07-19 03:15
#43
coslyk 发表于 2020-7-18 16:45
有道理,我的Debian在Gnome Xorg下编译东西经常桌面就卡死了,但Gnome Wayland模式下就从来不会 ...

是吗?我试过wayland下的kde还是有点问题,不过看后台还是有xorg进程在,GNOME没试。我想有空用weston试试,比较纯粹的wayland环境。
Reply View the author
avatar
rekees2020
deepin
2020-07-19 04:02
#44
锅找到了,就是swap,运行swapoff -a之后,世界清静了
测试了从局域网文件服务器nfs拷到本地和本地不同位置间复制,完全无压力,拷的时候随便干其他事情
可是休眠功能不能用了
另外,在Windows上好像有这样的说法-- 即使内存充足,也应该有虚拟内存,不知道Linux上有没有类似说法
Reply View the author
avatar
rekees2020
deepin
2020-07-19 04:40
#45
搜到有帖子说是vm.swappiness的问题,这个参数表示系统使用swap的倾向,设置为1, 即表示非到万不得已不使用swap
deepin默认的值可能较大,拷文件卡顿时,物理内存还很充裕
Reply View the author
avatar
rekees2020
deepin
2020-07-19 05:07
#46
deepin v20的/etc/sysctl.conf里所有内容都是注释掉的,添加vm.swappiness=1或0, 都不能缓解复制文件的卡顿,复制时能看到仍然使用了sawp,而内存占用不过20%-30%
禁用swap的效果立竿见影,没有任何卡顿
Reply View the author
avatar
rekees2020
deepin
2020-07-19 05:31
#47
cat /proc/sys/vm/swappiness查出系统默认vm.swappiness为10, 即内存占用90%时才用swap,但测试发现20%多就开始用、开始卡
vm.swappiness成功设置为0或1, 不管是临时设置还是改sysctl.conf,都无法改变启用swap的内存占用门限
疑似是系统bug?
Reply View the author
avatar
SamLukeYes
deepin
2020-07-19 17:24
#48
本帖最后由 samlukeyes123 于 2020-7-19 09:27 编辑

Wayland下从ntfs分区拷贝大量文件一样巨卡无比,不过没到卡死的程度。我的是NVME固态盘,没有启用swap。
Reply View the author
avatar
rekees2020
deepin
2020-07-19 17:47
#49
https://bbs.deepin.org/post/197314
Wayland下从ntfs分区拷贝大量文件一样巨卡无比,不过没到卡死的程度。我的是NVME固态盘,没有启用swap。 ...

我的机器上禁用swap立即解决问题,各种场合的复制都顺畅M.2接口的SSD
Reply View the author
avatar
SamLukeYes
deepin
2020-07-19 17:55
#50
https://bbs.deepin.org/post/197314
我的机器上禁用swap立即解决问题,各种场合的复制都顺畅M.2接口的SSD

看来大家卡顿的原因不一样
Reply View the author
avatar
x-org_dot_cn
deepin
2020-07-19 17:59
#51
厉害啊,多年的大DE卡顿之谜就要被你破解了。

btw:我用的是manjaro+LXDE+compiz窗口管理器,内存32G,多年来并没有卡顿的问题。上次注销LXDE之后进入pekwm看了看,竟然还有点卡,pekwm可是出了名的小啊。
Reply View the author
avatar
rekees2020
deepin
2020-07-19 18:01
#52
https://bbs.deepin.org/post/197314
看来大家卡顿的原因不一样

我用的是deepin v20,更新全部都装了,所有大文件复制操作,只要有本地硬盘参与读和/或写,一概卡顿,本地到本地最严重,swap一禁用,立即解决,你可以试试本地到本地复制卡不卡
Reply View the author
avatar
SamLukeYes
deepin
2020-07-19 18:05
#53
https://bbs.deepin.org/post/197314
我用的是deepin v20,更新全部都装了,所有大文件复制操作,只要有本地硬盘参与读和/或写,一概卡顿,本 ...

我是从NVPE硬盘复制到SD卡,不过我觉得卡顿的原因很可能在于NTFS,因为我这个NTFS分区其实已经坏了,Windows已经启动不了了,Linux下变成了只读,当时是把重要数据搬出来准备格盘
Reply View the author
avatar
rekees2020
deepin
2020-07-19 18:16
#54
https://bbs.deepin.org/post/197314
厉害啊,多年的大DE卡顿之谜就要被你破解了。

btw:我用的是manjaro+LXDE+compiz窗口管理器,内存32G,多 ...

其他发行版的英语社区里很多关于这个问题的讨论,我看到有人禁用swap后解决,就试了一下,果然搞定; 只是deepin 20没办法通过调整swappiness来尽量减少swap的使用,这个参数好像直接被忽略,只能禁用swap,同时也禁用了休眠
Reply View the author
avatar
rekees2020
deepin
2020-07-19 18:17
#55
https://bbs.deepin.org/post/197314
我是从NVPE硬盘复制到SD卡,不过我觉得卡顿的原因很可能在于NTFS,因为我这个NTFS分区其实已经坏了,Wind ...

这样能拷出来就不错了,还想不卡
Reply View the author
avatar
peacekeep
deepin
2020-07-20 01:27
#56
rekees2020 发表于 2020-7-18 20:02
锅找到了,就是swap,运行swapoff -a之后,世界清静了
测试了从局域网文件服务器nfs拷到本地和本地不同位置 ...

确认,swapoff -a以后确实就不卡了!
Reply View the author
avatar
rekees2020
deepin
2020-07-20 01:41
#57
https://bbs.deepin.org/post/197314
确认,swapoff -a以后确实就不卡了!

这是简单粗暴的办法
比较好的结果是 -- 尽量减少swap使用,非用不可的时候才用,这样可以避免软件内存泄漏带来彻底的死机,同时也能保留休眠;  尝试了swappiness参数,无效,也看到很多帖子说它无效,有人解释为这只是对内核的swap建议,内核觉得需要swap就swap...
平时使用的时候,内存占到40%以上都不会swap,唯独拷文件时30%左右就开始swap和卡顿
感觉swap是否启用不仅与内存占用有关,很可能有I/O相关的参数,但不确定是什么参数
Reply View the author
avatar
peacekeep
deepin
2020-07-20 02:05
#58
https://bbs.deepin.org/post/197314
这是简单粗暴的办法
比较好的结果是 -- 尽量减少swap使用,非用不可的时候才用,这样可以避免软件内存泄 ...

swappinesss设置为0也不好使。只要swap启用问题就在。还是bug。
Reply View the author
avatar
rekees2020
deepin
2020-07-20 02:45
#59
https://bbs.deepin.org/post/197314
swappinesss设置为0也不好使。只要swap启用问题就在。还是bug。

众多发行版都有人遇到这个问题,而且有些帖子是几年前的,可能是内核遗留多年的bug
Reply View the author
avatar
thepoy
deepin
2020-07-20 21:50
#60
https://bbs.deepin.org/post/197314
是KDE吗?如果是的话,禁用baloo试试。我以前用KDE的时候有时也会莫名其妙变卡,CPU和内存占用都不高,就 ...

怎么禁用啊
Reply View the author
3 / 5
To page