Syn*_*sso 5 scala amazon-emr apache-spark osm.pbf
OSM 数据以 PBF 格式提供。有专门的库(例如用于解析此数据的https://github.com/plasmap/geow)。
我想将此数据存储在 S3 上并将数据解析为 RDD 作为 EMR 作业的一部分。
实现这一目标的直接方法是什么?我可以将文件提取到主节点并在本地处理吗?如果是这样,我会创建一个空的 RDD 并在从输入文件解析流事件时添加到它吗?
| 归档时间: |
|
| 查看次数: |
1248 次 |
| 最近记录: |