在 Spark 中处理 (OSM) PBF 文件

Syn*_*sso 5 scala amazon-emr apache-spark osm.pbf

OSM 数据以 PBF 格式提供。有专门的库(例如用于解析此数据的https://github.com/plasmap/geow)。

我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。

实现这一目标的直接方法是什么?我可以将文件提取到主节点并在本地处理吗?如果是这样,我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗?

Adr*_*ona 5

一种解决方案是跳过 PBF。一种对 Spark 友好的表示是 Parquet。在这篇博文中,展示了如何将 PBF 转换为 Parquet 以及如何在 Spark 中加载数据。