我希望能够在hdfs文件系统上读/写图像并利用hdfs局部性.
我有一组图像,每个图像由一组图像组成
我想在hdfs文件系统上创建一个存档,并使用spark来分析存档.现在,我正在努力克服在hdfs文件系统上存储数据的最佳方式,以便能够充分利用spark + hdfs结构.
据我所知,最好的方法是创建一个sequenceFile包装器.我有两个问题:
hadoop sequencefile apache-spark pyspark
apache-spark ×1
hadoop ×1
pyspark ×1
sequencefile ×1