小编smi*_*hra的帖子

Spark 3.0 读取 json 文件比 Spark 2.4 慢得多

我有大量的 json 文件，Spark 可以在 36 秒内读取这些文件，但 Spark 3.0 需要将近 33 分钟才能读取相同的文件。仔细分析，看起来 Spark 3.0 选择的 DAG 与 Spark 2.0 不同。有谁知道发生了什么？Spark 3.0.0 是否有任何配置问题？

火花2.4

scala> spark.time(spark.read.json("/data/20200528"))
Time taken: 19691 ms
res61: org.apache.spark.sql.DataFrame = [created: bigint, id: string ... 5 more fields]

scala> spark.time(res61.count())
Time taken: 7113 ms
res64: Long = 2605349

Run Code Online (Sandbox Code Playgroud)

火花3.0

scala> spark.time(spark.read.json("/data/20200528"))
20/06/29 08:06:53 WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
Time taken: 849652 ms …

Run Code Online (Sandbox Code Playgroud)

scala apache-spark java-11 spark3

smi*_*hra

2020 06-29

6
推荐指数

1
解决办法

991
查看次数

如何从配置文件创建 aws_config 对象？

有谁知道如何从配置文件而不是环境中创建 Rust 中的 aws_config 。大多数示例使用以下内容来创建 aws_config

let shared_config = aws_config::from_env().region(region_provider).load().await;

就我而言，凭证是动态创建的并存储在 .aws/credentials 中。您能分享一段演示此功能的代码片段吗？

谢谢

amazon-s3 rust aws-sdk

smi*_*hra

2022 02-25

5
推荐指数

1
解决办法

823
查看次数

从datetime类型的一个数据框列创建年,月,日

我有一个pandas数据帧数据,其列MFR_DATE类型为datetime.我想创建其他列,MFR_YEAR,MFR_MONTH,MFR_DAY,我使用以下3个语句来执行此操作.我想知道是否有更好的方法吗？

data['MFR_YEAR'] = data.MFR_DATE.apply(lambda t: t.year)
data['MFR_MONTH'] = data.MFR_DATE.apply(lambda t: t.month)
data['MFR_DAY'] = data.MFR_DATE.apply(lambda t: t.day)

Run Code Online (Sandbox Code Playgroud)

dataframe python-3.x pandas

smi*_*hra

lucky-day

3
推荐指数

1
解决办法

58
查看次数