我使用以下命令用一堆包含2个字符串["filename","content"]的数组填充RDD.
现在,我希望迭代每个事件,以便对每个文件名和内容执行某些操作.
val someRDD = sc.wholeTextFiles("hdfs://localhost:8020/user/cloudera/*")
Run Code Online (Sandbox Code Playgroud)
我似乎无法找到有关如何执行此操作的任何文档.
所以我想要的是:
foreach occurrence-in-the-rdd{
//do stuff with the array found on loccation n of the RDD
}
Run Code Online (Sandbox Code Playgroud)