我在纱线集群中有大RDD(1gb).在使用此群集的本地计算机上,我只有512 MB.我想在本地机器上迭代RDD中的值.我不能使用collect(),因为它会在本地创建太大的数组,这比我的堆更多.我需要一些迭代的方式.有方法iterator(),但它需要一些额外的信息,我无法提供.
UDP:提交给LocalIterator方法
我有一个使用Spark生成的RDD.现在,如果我将此RDD写入csv文件,我将获得一些方法,如"saveAsTextFile()",它将csv文件输出到HDFS.
我想将文件写入我的本地文件系统,以便我的SSIS进程可以从系统中选择文件并将它们加载到数据库中.
我目前无法使用sqoop.
除了编写shell脚本之外,它是否可以在Java中实现.
如果需要清晰,请告知.