我有一个包含 100 多个子目录的目录。每个子目录都有一个文本文件。我想编写一个 Spark/scala 代码,将子目录名称附加到其中文件中的每个记录。
例如。
包含 /parent_dir/subdir1/file1->
abc|123
def|456
Run Code Online (Sandbox Code Playgroud)
包含 /parent_dir/subdir2/file1 ->
ghi|789
Run Code Online (Sandbox Code Playgroud)
包含 /parent_dir/subdir3/file1 ->
jkl|901
Run Code Online (Sandbox Code Playgroud)
所需的输出文件->
abc|123|subdir1
def|456|subdir1
ghi|789|subdir2
jkl|901|subdir3
Run Code Online (Sandbox Code Playgroud)