use*_*178 60 text-editing microsoft-excel
我有大约 100000 行数据。如果我以文本文件格式存储这些数据,它比以 Excel 文件格式存储它需要更多的空间。这是为什么?
Bob*_*Bob 118
现代 Excel 使用的xlsx格式实际上是一种压缩格式。它是一个 ZIP 档案,其中包含特定结构的文本 (XML) 文件。
如果您使用类似的 ZIP 压缩工具压缩纯文本文件,您应该获得类似的文件大小。
此外,正如Bradley Uffner和Morgen在评论中所提到的,Excel 将对相同的字符串进行重复数据删除,并且只存储它们的一个副本。我不确定这种方法的确切收益,这将取决于您的数据集,但简单的 zip 压缩可能会让您获得大部分收益。1
9.1.3 物理包
每个 Office Open XML 文档都作为 ZIP 存档实现。
1我的猜测是,当您有多个工作表时,这种重复数据删除最有效,因为 zip 压缩独立应用于存档中的每个文件,并且一次仅适用于有限的数据部分 - 通过将所有字符串一起存储在一个文件中,对后面的压缩应该有些好处。更实际的是,如果您的纯文本格式无论如何都在单个文件中,那么可能几乎没有区别。
Mir*_*ert -3
如果您有一个像 3.14159265359 这样的数字,则需要 13 个字节才能将其存储在文本文件中;如果将此数字存储为浮点数,则只需要 4 个字节。
| 归档时间: |
|
| 查看次数: |
14061 次 |
| 最近记录: |