小编Nab*_*rti的帖子

Spark.executor.instances 超过 Spark.dynamicAllocation.enabled = True

我正在使用 MapR 发行版的 Spark 项目工作，其中启用了动态分配。请参考以下参数：

spark.dynamicAllocation.enabled         true
spark.shuffle.service.enabled           true
spark.dynamicAllocation.minExecutors    0
spark.dynamicAllocation.maxExecutors    20
spark.executor.instances                2

Run Code Online (Sandbox Code Playgroud)

根据我的理解，spark.executor.instances 是我们在提交 pySpark 作业时定义为 --num-executors 的内容。

我有以下两个问题：

如果我--num-executors 5在作业提交期间使用它会覆盖spark.executor.instances 2配置设置吗？
spark.executor.instances当动态分配最小和最大执行器已经定义时定义的目的是什么？

apache-spark pyspark

Nab*_*rti

2019 04-24

5
推荐指数

1
解决办法

6820
查看次数

如何在 pandas dataframe 中将其他语言翻译成英语

我有一个 Excel 文件，其中“值”列包含不同的语言语句。我想将整个值栏翻译成英文。

出于测试目的，我使用下面的代码，但它引发了一些异常

import pandas as pd
from googletrans import Translator
exl_file = 'ipfile1.xlsx'
df = pd.read_excel(exl_file)
print(df)

translator = Translator()
df1 = df['value'].apply(translator.translate, src='es', dest='en').apply(getattr, args=('text',))
print(df1)

Run Code Online (Sandbox Code Playgroud)

您能否指导如何在每一行上应用翻译器将其转换为英语？

python google-translate python-3.x pandas

Nab*_*rti

lucky-day

5
推荐指数

1
解决办法

2万
查看次数

使用 pyspark 跟踪具有附加条件的前一行值

我正在使用 pyspark 生成一个数据框，只有当 amt = 0 时，我才需要使用前一行的“amt”值更新“amt”列。

例如，下面是我的数据框

+---+-----+
| id|amt  |
+---+-----+
|  1|    5|
|  2|    0|
|  3|    0|
|  4|    6|
|  5|    0|
|  6|    3|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

现在，我想要创建以下 DF。每当 amt = 0 时， modi_amt col 将包含前一行的非零值，否则没有变化。

+---+-----+----------+
| id|amt  |modi_amt  |
+---+-----+----------+
|  1|    5|         5|
|  2|    0|         5|
|  3|    0|         5|
|  4|    6|         6|
|  5|    0|         6|
|  6|    3|         3|
+---+-----+----------+

Run Code Online (Sandbox Code Playgroud)

我能够获得之前的行值，但需要帮助出现多个 0 amt 的行（例如，id = 2,3）

我正在使用的代码：