小编her*_*arn的帖子

PySpark:读取 Spark 数据帧中的多个 XML 文件(s3 路径列表)

正如问题所示,我在列表中有一个 s3 路径列表

s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]
Run Code Online (Sandbox Code Playgroud)

我正在使用 PySpark,想了解如何将所有这些 XML 文件一起加载到数据框中?类似于下面所示的示例。

df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths)
Run Code Online (Sandbox Code Playgroud)

我能够读取单个文件,但想找到加载所有文件的最佳方法。

apache-spark pyspark databricks

5
推荐指数
1
解决办法
3113
查看次数

Java Map - 在 getOrDefault 中找不到密钥时的日志消息

我有一个Map<String, List<SomeClass>> someMap,我正在根据someKey我正在执行其他操作的 SomeClass 列表中的每个元素检索值。

someMap.getOrDefault(someKey, new ArrayList<>()).forEach(...)
Run Code Online (Sandbox Code Playgroud)

我还希望能够在找不到someKey. 我如何才能以最佳方式实现它?有没有其他功能/方法可以实现这种行为?

java hashmap

4
推荐指数
1
解决办法
254
查看次数

标签 统计

apache-spark ×1

databricks ×1

hashmap ×1

java ×1

pyspark ×1