Mar*_*sen 4 pipeline parquet tensorflow
我正在尝试使用数据集API设计输入管道。我正在处理镶木地板文件。将它们添加到我的管道的好方法是什么?
我们发布了Petastorm,这是一个开放源代码库,可让您直接通过Tensorflow Dataset API使用Apache Parquet文件。
这是一个小例子:
with Reader('hdfs://.../some/hdfs/path') as reader:
dataset = make_petastorm_dataset(reader)
iterator = dataset.make_one_shot_iterator()
tensor = iterator.get_next()
with tf.Session() as sess:
sample = sess.run(tensor)
print(sample.id)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1643 次 |
| 最近记录: |