谁能准确解释一下 IOWait 是什么?

Pet*_*ins 238 io iowait

就我所读到的关于 iowait 的内容而言,它对我来说仍然是个谜。

我知道这是 CPU 等待 IO 操作完成所花费的时间,但是究竟是什么样的 IO 操作呢?我也不确定,为什么它如此重要?CPU 不能在 IO 操作完成时做其他事情,然后再返回处理数据吗?

还有什么是正确的工具来诊断哪些进程确实在等待 IO。

以及有哪些方法可以最大限度地减少 IO 等待时间?

Dav*_*ney 119

我知道这是 CPU 等待 IO 操作完成所花费的时间,但是究竟是什么样的 IO 操作呢?我也不确定,为什么它如此重要?CPU 不能在 IO 操作完成时做其他事情,然后再返回处理数据吗?

是的,操作系统会安排其他进程运行,而一个进程在 IO 上被阻塞。但是在该过程中,除非它使用异步 IO,否则直到任何 IO 操作完成后它才会进行。

还有什么是正确的工具来诊断哪些进程确实在等待 IO。

您可能会发现一些有用的工具

  • iostat, 监控磁盘的服务时间
  • iotop (如果您的内核支持),监控每个进程的 IO 请求细分
  • strace, 查看进程发出的实际操作

以及有哪些方法可以最大限度地减少 IO 等待时间?

  • 确保您有可用的物理内存,以便操作系统可以在内存中缓存磁盘块
  • 将文件系统磁盘使用率保持在 80% 以下以避免过度碎片化
  • 调整你的文件系统
  • 使用电池支持的阵列控制器
  • 执行 io 操作时选择合适的缓冲区大小

  • 不要忘记“确保您的后端存储足够快以跟上您的 I/O 负载。” (10认同)
  • 天哪,我不敢相信这里的前 3 个答案竟然如此**错误**。haridsv 下面的答案是正确的。没有 CPU 正在“等待”io 完成。是的,某些 io 可能会被阻塞 - 通常有一个很好的理由,在某些情况下,所有 io 都可能被阻塞。但是您也可以看到 iowait 发生在完全异步的操作中。 (5认同)
  • 当处于 IOwait 时,进程处于“不间断睡眠”,这意味着它不能被杀死,以避免损坏磁盘上的数据的风​​险。正常的空闲进程实际上什么都不做,因此杀死它的风险较小。 (4认同)
  • @Dave Cheney,当我的进程空闲时,那是因为它正在等待 IO。那么IOWait和idle有什么区别呢? (2认同)
  • 实际上这意味着你的 IO 太慢了。无论您的 CPU 有限还是 CPU 匮乏,“让服务器更快”都是不同的,因为有人认为慢速笔记本光盘足以运行数据库服务器,而 IO 负载使 CPU 只能使用其所能使用的 2%,等待就像疯狂地等待 IO 完成。 (2认同)

Gru*_*mpy 58

老问题,最近碰到了,但觉得现有的答案不够。

IOWait 定义和属性

IOWait(通常标记%wa在顶部)是空闲的子类别(%idle通常表示为除定义的子类别之外的所有空闲),这意味着 CPU 不做任何事情。因此,只要 CPU 可以处理另一个进程,它就会这样做。此外,空闲、用户、系统、iowait 等是相对于 CPU 的度量。换句话说,您可以将 iowait 视为等待 io 导致的空闲。

准确地说,iowait 是接收和处理硬件中断所花费的时间占处理器滴答的百分比。软件中断通常单独标记为%si.

重要性和潜在的误解

IOWait 很重要,因为它通常是了解您是否遇到 IO 瓶颈的关键指标。但是没有 iowait 并不一定意味着您的应用程序在 IO 上没有瓶颈。考虑在一个系统上运行的两个应用程序。如果程序 1 是严重的 io 瓶颈而程序 2 是一个沉重的 CPU 用户,那么%user + %systemCPU 的可能仍然是 ~100%,相应地,iowait 会显示 0。但这只是因为程序 2 是密集型的,并且相对来说似乎什么都不说程序 1,因为所有这些都是从 CPU 的角度来看的。

检测 IOWait 的工具

查看 Dave Cheney 和 Xerxes 的帖子

而且还会简单的top显示在%wa.

减少 IOWait

此外,由于我们现在即将进入 2013 年,除了其他人所说的之外,简单出色的 IO 存储设备的选择也是负担得起的,即 SSD。固态硬盘太棒了!!!


har*_*dsv 43

我发现此链接中的解释和示例非常有用:“iowait”究竟是什么?. 顺便说一句,为了完整起见,这里的 I/O 指的是磁盘 I/O,但也可以包括网络挂载磁盘(例如 nfs)上的 I/O,如一篇文章中所述

我将引用一些重要的部分(以防链接失效),其中一些将重复其他人已经说过的内容,但至少对我来说这些更清晰:

用一句话总结一下,'iowait' 是 CPU 空闲且至少有一个 I/O 正在进行的时间百分比。

每个 CPU 可以处于以下四种状态之一:user、sys、idle、iowait。

我想知道当系统有其他进程准备运行而一个进程正在等待 I/O 时会发生什么。下面解释一下:

如果 CPU 空闲,则内核会确定当前是否至少有一个 I/O 正在进行到本地磁盘或已从该 CPU 启动的远程安装磁盘 (NFS)。如果有,则“iowait”计数器加一。如果没有从该 CPU 启动的正在进行的 I/O,则“空闲”计数器加 1。

这是一个例子:

假设有两个程序在一个 CPU 上运行。一个是从磁盘读取的“dd”程序。另一个是不执行 I/O 但将 100% 的时间用于计算工作的程序。现在假设 I/O 子系统有问题,并且物理 I/O 需要一秒钟才能完成。每当“dd”程序在等待其 I/O 完成时处于睡眠状态,另一个程序就能够在该 CPU 上运行。当时钟中断发生时,总会有程序运行在用户模式或系统模式。因此,%idle 和 %iowait 值将为 0。即使 iowait 现在为 0,这并不意味着不存在 I/O 问题,因为如果物理 I/O 需要一秒钟才能完成,显然存在问题。

全文值得一读。这是此页面镜像,以防万一。


Xer*_*xes 37

iowait

iowait是时候该处理器/处理器正在等待(即处于空闲状态,并不会什么),在此期间,有实际上优秀的磁盘I / O请求。

这通常意味着块设备(即物理磁盘,而不是内存)太慢,或者只是饱和了。

因此,您应该注意,如果您看到系统上的平均负载很高,并且在检查时发现其中大部分实际上是由于 I/O 等待,这并不一定意味着您的系统有问题 - 这发生在您的系统上除了 I/O 绑定的进程(即执行 I/O 比其他任何事情都多的进程(非 I/O 绑定的系统调用))之外,机器根本无事可做。从您在系统上所做的任何事情仍然非常敏感的事实也可以看出这一点。

工具

  • sar(来自sysstat软件包,可在大多数 *nix 机器上使用)
  • iostat
  • sarface(前端到sar

  • 请注意,严格来说,I/O 等待时间的定义仅适用于单处理器系统。对于多处理器系统需要稍微改进一下:http://veithen.blogspot.be/2013/11/iowait-linux.html (8认同)

Jer*_*nch 0

什么样的 IO 操作取决于您的应用程序和设置。

这很重要,因为在某些情况下 CPU 无法获取继续运行所需的数据或指令。在某些情况下,它可以继续,但这取决于正在运行的应用程序的功能。如果您有一个执行大量磁盘访问的单线程应用程序,那么您将需要等待。

为了最大限度地减少 IO 时间,请购买更多、更快的内存,获得更快的磁盘,并对您拥有的磁盘进行碎片整理。

如果它是一个内部应用程序,这是瓶颈,看看是否可以优化它以读取更大的块或异步执行 IO。