小编use*_*842的帖子

获取 Spark Scala rdd/dataframe 中所有文件和数据的路径

我有一个包含 100 多个子目录的目录。每个子目录都有一个文本文件。我想编写一个 Spark/scala 代码,将子目录名称附加到其中文件中的每个记录。

例如。

包含 /parent_dir/subdir1/file1->

abc|123

def|456
Run Code Online (Sandbox Code Playgroud)

包含 /parent_dir/subdir2/file1 ->

ghi|789
Run Code Online (Sandbox Code Playgroud)

包含 /parent_dir/subdir3/file1 ->

jkl|901
Run Code Online (Sandbox Code Playgroud)

所需的输出文件->

abc|123|subdir1

def|456|subdir1

ghi|789|subdir2

jkl|901|subdir3
Run Code Online (Sandbox Code Playgroud)

loops scala apache-spark

0
推荐指数
1
解决办法
2995
查看次数

标签 统计

apache-spark ×1

loops ×1

scala ×1