访问速度是否取决于网络共享上的文件数量?

bob*_*ous 15 performance network-shares

在我们的办公室中,我们使用 SSD 的 RAID5 作为 Linux 服务器上的网络共享。此共享可作为网络驱动器从 Windows PC 和 Mac 访问。有时,此网络共享在访问时间和传输速度方面变得非常慢。

我不是管理员,因此对系统没有全面的了解。

一位管理员现在提出,这可能与网络共享上存储的文件数量有关。有些文件夹包含数百万个 kB 的文件。

访问速度是否取决于网络共享上的文件数量?

Tet*_*jin 32

它不是驱动器上文件的绝对数量,而是任何给定文件夹中的文件数量。

每次有人访问文件夹时,都必须读取其中的内容,以便显示文件列表。这也与文件大小无关;仅需要获取标题、创建/修改日期和其他外部可见的信息。
如果使用缩略图,图标缓存也可能遭受严重影响。

将这些巨大的文件夹分成子集可能正是结构所需要的。

  • 除此之外,搜索 OP 可能想要的拆分类型的术语是“目录散列”。通常的设置是创建名称与文件名前缀匹配的子目录,然后将文件分类到相应的文件夹中。例如,许多邮件服务器正是为了这个性能方面而这样做的。 (5认同)

use*_*686 9

    \n
  1. 列出文件的速度显然取决于要列出的文件的数量。

    \n
  2. \n
  3. 打开特定文件(即开始检索)的速度可能取决于文件的数量。

    \n

    根据服务器上使用的文件系统(例如 NTFS、XFS、ext4、ZFS),它将使用不同的数据结构来存储每个目录 \xe2\x80\x93 中的文件列表,其中一些文件在处理方面明显更好比其他列表更庞大(例如 B 树、哈希表、线性列表)。

    \n

    每次打开(或以其他方式触及)新文件时,服务器都需要在该目录中找到它,这可能需要一些时间。(特别是如果目录列表未缓存在内存中并且需要从 HDD 读取。)

    \n

    对于数百万个文件,您绝对应该考虑将它们分片到子目录中,例如根据文件名的前几个字母(类似于您在.git/objects/Git 存储库中可能看到的内容)。

    \n
  4. \n
  5. 传输文件内容的速度(不包括打开它所需的时间)根本取决于该目录中的文件数量。

    \n

    它确实取决于磁盘需要寻找多少磁盘(如果它们是机械磁盘),这对于许多小文件来说尤其糟糕。

    \n
  6. \n
\n

如果您要传输数千个小文件,我想大部分时间将花费在和 \xe2\x80\x93 上,如果服务器使用 HDD \xe2\x80\x93 物理地从一个小文件来回寻找 HDD 磁头文件到另一个,以及从一个元数据条目到另一个元数据条目。

\n


小智 6

你没有说服务器是Windows还是Linux,但至少在基于Linux的文件系统中,大目录肯定很慢。如果在一个目录中创建数百万个文件,目录索引就会增长。如果你这样做的话,你实际上可以看到这一点ls -lhd <dir>。而且目录只会增长;它们不会变小。

我管理一个处理许多队列文件的系统,为了避免因此而变慢,我做了两件事:

  • 将数百万个文件拆分到各个子目录中。这是一种非常常见的做法。例如,如果您查看 Postfix SMTP 服务器,您将看到队列目录根据第一个字母细分为子目录(这可以通过散列或任何您想要的算法来完成)。
  • 有时重新创建所有子目录。有些事件甚至会导致这些子目录增长,一旦目录大小达到几十或几百兆字节(不是内容只是目录索引),它就会减慢对其的所有访问。

因此,避免在一个目录中放置数百万个文件,并将它们放在子目录中。

当您谈论分布在许多子目录中的数百万个文件时,这不应该成为一个因素。