在 Spark 中处理 (OSM) PBF 文件

Question

OSM 数据以 PBF 格式提供。有专门的库（例如用于解析此数据的https://github.com/plasmap/geow）。

我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。

实现这一目标的直接方法是什么？我可以将文件提取到主节点并在本地处理吗？如果是这样，我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗？

Answer 1

一种解决方案是跳过 PBF。一种对 Spark 友好的表示是 Parquet。在这篇博文中，展示了如何将 PBF 转换为 Parquet 以及如何在 Spark 中加载数据。