相关疑难解决方法(0)

什么是引起随机播放的Spark转换？

我很难在Spark文档操作中找到导致shuffle和操作的操作.在这个列表中,哪些确实会导致混乱而哪些不会导致混乱？

地图和过滤器没有.但是,我不确定其他人.

map(func)
filter(func)
flatMap(func)
mapPartitions(func)
mapPartitionsWithIndex(func)
sample(withReplacement, fraction, seed)
union(otherDataset)
intersection(otherDataset)
distinct([numTasks]))
groupByKey([numTasks])
reduceByKey(func, [numTasks])
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])
join(otherDataset, [numTasks])
cogroup(otherDataset, [numTasks])
cartesian(otherDataset)
pipe(command, [envVars])
coalesce(numPartitions)

Run Code Online (Sandbox Code Playgroud)

python java scala apache-spark

poi*_*rez

2019 01-25

35
推荐指数

3
解决办法

1万
查看次数

Distinct()函数如何在Spark中运行？

我是Apache Spark的新手,正在学习基本的功能.有一个小小的疑问.假设我有一个元组的RDD(键,值),并希望从中获得一些独特的元素.我使用distinct()函数.我想知道函数在什么基础上认为元组是完全不同的？它是基于键,值,还是两者兼而有之？

distinct apache-spark

pre*_*eti

lucky-day

23
推荐指数

4
解决办法

7万
查看次数

Apache Spark:使用RDD.aggregateByKey()的RDD.groupByKey()的等效实现是什么？

Apache Spark pyspark.RDDAPI文档提到groupByKey()效率低下.相反,它是推荐使用reduceByKey(),aggregateByKey(),combineByKey(),或foldByKey()代替.这将导致在shuffle之前在worker中进行一些聚合,从而减少跨工作人员的数据混乱.

给定以下数据集和groupByKey()表达式,什么是等效且有效的实现(减少的跨工作者数据混洗),它不使用groupByKey(),但提供相同的结果？

dataset = [("a", 7), ("b", 3), ("a", 8)]
rdd = (sc.parallelize(dataset)
       .groupByKey())
print sorted(rdd.mapValues(list).collect())

Run Code Online (Sandbox Code Playgroud)

输出:

[('a', [7, 8]), ('b', [3])]

Run Code Online (Sandbox Code Playgroud)

apache-spark rdd pyspark

jse*_*ars

2016 04-06

11
推荐指数

1
解决办法

8486
查看次数

标签统计

apache-spark ×3

distinct ×1

java ×1

pyspark ×1

python ×1

rdd ×1

scala ×1

什么是引起随机播放的Spark转换？

Distinct()函数如何在Spark中运行？

Apache Spark:使用RDD.aggregateByKey()的RDD.groupByKey()的等效实现是什么？

标签 统计

标签统计