Parquet 与 RecordIO

wat*_*wer 5 hadoop amazon-web-services parquet amazon-sagemaker

这几天正在学习AWS。所以,如果这个问题太基础了,我很抱歉。我读过一堆关于 Parquet 相对于 CSV 的优点的开放式和封闭式问题(回答:与其他格式相比,Parquet 格式的优点和缺点是什么?),以及 RecordIO-protobuf 在文件与管道模式方面的优点和缺点(例如,未回答RecordIO 的吸引力是什么)。但是,我还没有看到 RecordIO-protobuf 和 Parquet 之间有任何比较。

以下是我可以从我的研究中收集到的信息:

除了上述两个区别之外,使用 Parquet 与 recordIO 格式的优缺点是什么?此外,搜索“Parquet vs. RecordIO”给我的谷歌结果为零,这让我觉得我正在比较苹果和橙子。

我将不胜感激任何想法。

小智 1

Parquet 由于文件较小而非常适合分析数据,并且允许您仅扫描感兴趣的列。

RecordIO 格式通常用于训练机器学习模型,以便仅在需要时呈现模型所需的数据。