正如问题所示,我在列表中有一个 s3 路径列表
s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]
Run Code Online (Sandbox Code Playgroud)
我正在使用 PySpark,想了解如何将所有这些 XML 文件一起加载到数据框中?类似于下面所示的示例。
df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths)
Run Code Online (Sandbox Code Playgroud)
我能够读取单个文件,但想找到加载所有文件的最佳方法。
我有一个Map<String, List<SomeClass>> someMap,我正在根据someKey我正在执行其他操作的 SomeClass 列表中的每个元素检索值。
someMap.getOrDefault(someKey, new ArrayList<>()).forEach(...)
Run Code Online (Sandbox Code Playgroud)
我还希望能够在找不到someKey. 我如何才能以最佳方式实现它?有没有其他功能/方法可以实现这种行为?