小编MtD*_*van的帖子

将大量数据集转换为tf.data.Dataset的最佳数据流和处理解决方案

内容：

我的文本输入管道当前包括两个主要部分：

我。复杂的文本预处理并导出tf.SequenceExamples到tfrecord（自定义标记化，词汇创建，统计信息计算，规范化以及整个数据集以及每个单独示例中的更多操作）。对于每个数据配置，只需完成一次。

二。一个tf.Dataset（TFRecords）管道在训练期间也进行了大量处理（string_split转换为字符，表查找，存储区，条件过滤等）。

原始数据集存在于多个位置（BigQuery，GCS，RDS等）。

问题：

问题在于，随着生产数据集快速增长（几个TB），为每种可能的数据配置（第1部分具有很多超参数）重新创建tfrecords文件是不可行的，因为每个文件都将具有数百TB的巨大容量。更不用说，tf.Dataset当tf.SequenceExamples或tfrecords变大时，读取速度会意外降低。

有很多可能的解决方案：