我可以将hdf5用于大量文本数据吗?

yay*_*ayu 6 file hdf5 data-mining

假设我将以编程方式从互联网上获取数十万个开放访问书籍作为文本字符串.我的目的是对它们做一些分析(使用熊猫).我已经在我的应用程序的某些部分使用mongodb,但我认为很容易将它放在pendrive中并将其转移到另一台机器上.Sqlite是可移植的,但我讨厌编写sql.我看到的其他选项只是将它作为单独的文本文件或称为hdf5的文件系统.

hdf5对这种纯文本数据有用吗?如果没有,还有哪些其他选择?

Sim*_*mon 6

是的你可以,但如果我是你,我会使用单独的文本文件并压缩包含目录.原因如下:

大数字数组(HDF5的面包和黄油)可以有效地以二进制格式存储,但没有二进制文本,因此使用HDF5在空间方面没有任何优势.是的,您可以在HDF5文件中启用压缩,但您可以轻松压缩文本文件.

目前,文本文件和zip文件都非常普遍,因此在可移植性方面没有任何好处.

以下是使用HDF5无法做到的微不足道的一个示例:删除数据集并回收其空间.

最后,这是您的项目的另一个依赖项,而文本文件是以任何编程语言免费提供的.