小编Nab*_*rti的帖子

Spark.executor.instances 超过 Spark.dynamicAllocation.enabled = True

我正在使用 MapR 发行版的 Spark 项目工作,其中启用了动态分配。请参考以下参数:

spark.dynamicAllocation.enabled         true
spark.shuffle.service.enabled           true
spark.dynamicAllocation.minExecutors    0
spark.dynamicAllocation.maxExecutors    20
spark.executor.instances                2
Run Code Online (Sandbox Code Playgroud)

根据我的理解,spark.executor.instances 是我们在提交 pySpark 作业时定义为 --num-executors 的内容。

我有以下两个问题:

  1. 如果我--num-executors 5在作业提交期间使用它会覆盖spark.executor.instances 2配置设置吗?

  2. spark.executor.instances当动态分配最小和最大执行器已经定义时定义的目的是什么?

apache-spark pyspark

5
推荐指数
1
解决办法
6820
查看次数

如何在 pandas dataframe 中将其他语言翻译成英语

我有一个 Excel 文件,其中“值”列包含不同的语言语句。我想将整个值栏翻译成英文。

在此输入图像描述

出于测试目的,我使用下面的代码,但它引发了一些异常

import pandas as pd
from googletrans import Translator
exl_file = 'ipfile1.xlsx'
df = pd.read_excel(exl_file)
print(df)

translator = Translator()
df1 = df['value'].apply(translator.translate, src='es', dest='en').apply(getattr, args=('text',))
print(df1)
Run Code Online (Sandbox Code Playgroud)

您能否指导如何在每一行上应用翻译器将其转换为英语?

python google-translate python-3.x pandas

5
推荐指数
1
解决办法
2万
查看次数

使用 pyspark 跟踪具有附加条件的前一行值

我正在使用 pyspark 生成一个数据框,只有当 amt = 0 时,我才需要使用前一行的“amt”值更新“amt”列。

例如,下面是我的数据框

+---+-----+
| id|amt  |
+---+-----+
|  1|    5|
|  2|    0|
|  3|    0|
|  4|    6|
|  5|    0|
|  6|    3|
+---+-----+
Run Code Online (Sandbox Code Playgroud)

现在,我想要创建以下 DF。每当 amt = 0 时, modi_amt col 将包含前一行的非零值,否则没有变化。

+---+-----+----------+
| id|amt  |modi_amt  |
+---+-----+----------+
|  1|    5|         5|
|  2|    0|         5|
|  3|    0|         5|
|  4|    6|         6|
|  5|    0|         6|
|  6|    3|         3|
+---+-----+----------+
Run Code Online (Sandbox Code Playgroud)

我能够获得之前的行值,但需要帮助出现多个 0 amt 的行(例如,id = 2,3)

我正在使用的代码:

from …
Run Code Online (Sandbox Code Playgroud)

python-3.x apache-spark apache-spark-sql pyspark pyspark-sql

2
推荐指数
1
解决办法
2035
查看次数