小编mae*_*ica的帖子

Spark：为什么 Python 在我的用例中明显优于 Scala？

为了在使用 Python 和 Scala 时比较 Spark 的性能，我在两种语言中创建了相同的作业并比较了运行时。我预计这两个作业花费的时间大致相同，但 Python 作业只花费了27min，而 Scala 作业花费了37min（几乎长了 40%！）。我也在 Java 中实现了同样的工作，而且它也完成37minutes了。Python 怎么可能这么快？

最小可验证示例：

蟒蛇作业：

# Configuration
conf = pyspark.SparkConf()
conf.set("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider")
conf.set("spark.executor.instances", "4")
conf.set("spark.executor.cores", "8")
sc = pyspark.SparkContext(conf=conf)

# 960 Files from a public dataset in 2 batches
input_files = "s3a://commoncrawl/crawl-data/CC-MAIN-2019-35/segments/1566027312025.20/warc/CC-MAIN-20190817203056-20190817225056-00[0-5]*"
input_files2 = "s3a://commoncrawl/crawl-data/CC-MAIN-2019-35/segments/1566027312128.3/warc/CC-MAIN-20190817102624-20190817124624-00[0-3]*"

# Count occurances of a certain string
logData = sc.textFile(input_files)
logData2 = sc.textFile(input_files2)
a = logData.filter(lambda value: value.startswith('WARC-Type: response')).count()
b = logData2.filter(lambda value: value.startswith('WARC-Type: response')).count()

print(a, b) …

Run Code Online (Sandbox Code Playgroud)

python scala apache-spark pyspark

mae*_*ica

2020 02-26

17
推荐指数

2
解决办法

1907
查看次数