我将一些相当大的 Pandas 数据帧导出为 Tensorflow 的序列化格式。我经常这样做,而且速度非常慢。这可能是因为我必须序列化各个示例 idk。另外,我使用“GZIP”选项压缩文件。
我在文档中找到了 TFRecordWriter 的一些选项,看起来它们可能会有所帮助(缓冲区有帮助,对吧?)。但没有解释这些input_buffer_size
值的含义或范围。是 {0, 1, 2, 3} 还是几百万?或者我想要output_buffer_size
什么mem_level
或者其他什么?
Args
compression_type "GZIP", "ZLIB", or "" (no compression).
flush_mode flush mode or None, Default: Z_NO_FLUSH.
input_buffer_size int or None.
output_buffer_size int or None.
window_bits int or None.
compression_level 0 to 9, or None.
compression_method compression method or None.
mem_level 1 to 9, or None.
compression_strategy strategy or None. Default: Z_DEFAULT_STRATEGY.
Run Code Online (Sandbox Code Playgroud)