很多小文件或几个大文件?

Sas*_*gov 4 filesystems performance file filesize

在性能和效率方面,使用大量小文件(通过批量表示多达几百万)或一对(十个左右)巨大(几千兆字节)文件是否更好?我们只是说我正在构建一个数据库(不完全正确,但重要的是它将被访问很多).

我主要关注读取性能.我的文件系统目前在Linux上是ext3(Ubuntu Server Edition,如果它很重要),虽然我处于可以切换的位置,因此不同文件系统之间的比较将是非常棒的.由于技术原因,我不能使用实际的DBMS(因此问题),所以"只使用MySQL"不是一个好的答案.

在此先感谢,如果我需要更具体,请告诉我.


编辑:我将存储大量相对较小的数据,这就是为什么使用大量小文件对我来说会更容易.因此,如果我使用一些大文件,我一次只能从它们中检索几KB.我也会使用索引,所以这不是一个真正的问题.此外,一些数据指向其他数据(它将指向大量小文件中的文件,并指向大文件情况下文件中数据的位置).

Rob*_*ino 5

这里有很多假设,但是,对于所有意图和目的,搜索大文件比搜索一堆小文件要快得多.

假设您正在寻找文本文件中包含的一串文本.搜索一个1TB的文件更快比打开百万MB的文件,并通过这些搜索.

每个文件打开操作都需要时间.一个大文件只需要打开一次.

而且,在考虑磁盘性能时,单个文件比大量文件更有可能被存储.

...同样,这些是概括而不了解您的具体应用.

请享用,

Robert C. Cartaino

  • 没错,除非您可以选择要搜索的小文件.不知何故. (2认同)