相关疑难解决方法(0)

使用pyspark,在hadoop文件系统上读/写2D图像

我希望能够在hdfs文件系统上读/写图像并利用hdfs局部性.

我有一组图像,每个图像由一组图像组成

  • uint16的二维数组
  • 存储为xml文件的基本附加信息.

我想在hdfs文件系统上创建一个存档,并使用spark来分析存档.现在,我正在努力克服在hdfs文件系统上存储数据的最佳方式,以便能够充分利用spark + hdfs结构.

据我所知,最好的方法是创建一个sequenceFile包装器.我有两个问题:

  • 创建sequenceFile包装器是最好的方法吗?
  • 有没有人指向我可以用来开始的例子?我不能是第一个需要通过spark在hdfs上阅读与文本文件不同的东西!

hadoop sequencefile apache-spark pyspark

7
推荐指数
1
解决办法
5370
查看次数

标签 统计

apache-spark ×1

hadoop ×1

pyspark ×1

sequencefile ×1