小编Ame*_*url的帖子

如何获得PySpark中的工作人员(执行者)数量?

我需要使用这个参数,那么我怎样才能得到工人的数量?像Scala一样,我可以打电话sc.getExecutorMemoryStatus来获得可用的工人数量.但在PySpark中,似乎没有公开API获取此数字.

scala apache-spark pyspark

9
推荐指数
1
解决办法
2万
查看次数

范围分区器如何在Spark中工作?

我不太清楚范围分区器在Spark中是如何工作的.它使用(水库采样)取样.我对计算输入边界的方式感到困惑.

 // This is the sample size we need to have roughly balanced output partitions, capped at 1M.
  val sampleSize = math.min(20.0 * partitions, 1e6)
  // Assume the input partitions are roughly balanced and over-sample a little bit.
  val sampleSizePerPartition = math.ceil(3.0 * sampleSize / rdd.partitions.length).toInt
Run Code Online (Sandbox Code Playgroud)

为什么计算的sampleSize应该乘以3.0?以及如何获得边界?有人能告诉我一些这方面的例子吗?谢谢!

partitioning apache-spark

5
推荐指数
1
解决办法
6559
查看次数

是否可以使用 Gmail-api 获取最近的 10 封电子邮件?

现在,我可以使用 gmail api 获取所有未读电子邮件或收件箱中的所有电子邮件。

GMAIL.users().messages().list(userId='me', labelIds=['UNREAD', 'INBOX']).execute()
Run Code Online (Sandbox Code Playgroud)

因为收到所有电子邮件可能很烦人,所以我想知道是否可以只从 gmail api 获取最近的 10 封未读电子邮件?

感谢您的任何提示,让我可以做这样的事情。

python gmail-api

5
推荐指数
1
解决办法
2509
查看次数

如何将列表[a,b,c]转换为python切片索引[:a,:b:c]?

例如,我有一组多维数组.我想编写一个方法来指定此数组的切片大小,例如:

slice = data[:a, :b, :c]
Run Code Online (Sandbox Code Playgroud)

因为我只能得到[a,b,c]的列表.我想知道如何将此列表转换为切片索引.或者有没有办法将列表与切片索引连接起来,以便将此数组操作为:

list = [a, b, c]
slice = data[list]
Run Code Online (Sandbox Code Playgroud)

任何回复将不胜感激.

python arrays list

4
推荐指数
1
解决办法
2708
查看次数

为什么sortBy()无法在Spark中均匀地对数据进行排序?

我正在编写一个pyspark脚本来读取一个大的二维数组,所以我尝试先生成一个索引数组并使用read方法映射以读入相应的数组.例如,如果我有一个包含10行的数组,那么我希望这10行被均匀分区,因为每个分区有2行.我用sortBy()尝试过这种方式:

rdd = sc.range(0, 10, 1).sortBy(lambda x: x, numPartitions = 5)
rdd.glom().collect()
Run Code Online (Sandbox Code Playgroud)

但结果显示为:

[[0, 1, 2], [3, 4], [5, 6], [7, 8], [9]]
Run Code Online (Sandbox Code Playgroud)

这表示sortBy()没有按预期工作,因此第一个分区有3个数字,而最后一个分区只有1个数字.当我用另一个读取方法映射每个分区时,分区的大小是不同的,有时会产生落后者.

我尝试了另一种RDD生成方式:

rdd = sc.parallelize(range(0, 10, 1), 5)
rdd.glom().collect()
Run Code Online (Sandbox Code Playgroud)

它返回我想要的结果.

[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
Run Code Online (Sandbox Code Playgroud)

有人可以帮助解释为什么使用sortBy()的第一个方法不能返回均匀排序的结果?

python apache-spark rdd pyspark

4
推荐指数
1
解决办法
755
查看次数

ShuffledRDD,MapPartitionsRDD和RarallelCollectionRDD有什么区别?

我只是使用两种不同的方式来生成Spark RDD.Spark UI DAG图表中的结果完全不同.

在此输入图像描述

在此输入图像描述

有人可以教我差异,在我的工作中,第一个比具有类似操作的第二个更快.

apache-spark rdd pyspark

2
推荐指数
1
解决办法
2415
查看次数

标签 统计

apache-spark ×4

pyspark ×3

python ×3

rdd ×2

arrays ×1

gmail-api ×1

list ×1

partitioning ×1

scala ×1