Tensorflow数据集API:具有镶木地板文件的输入管道

Mar*_*sen 4 pipeline parquet tensorflow

我正在尝试使用数据集API设计输入管道。我正在处理镶木地板文件。将它们添加到我的管道的好方法是什么?

Yev*_*vin 5

我们发布了Petastorm,这是一个开放源代码库,可让您直接通过Tensorflow Dataset API使用Apache Parquet文件。

这是一个小例子

   with Reader('hdfs://.../some/hdfs/path') as reader:
        dataset = make_petastorm_dataset(reader)
        iterator = dataset.make_one_shot_iterator()
        tensor = iterator.get_next()
        with tf.Session() as sess:
            sample = sess.run(tensor)
            print(sample.id)
Run Code Online (Sandbox Code Playgroud)