我正在使用 MapR 发行版的 Spark 项目工作,其中启用了动态分配。请参考以下参数:
spark.dynamicAllocation.enabled true
spark.shuffle.service.enabled true
spark.dynamicAllocation.minExecutors 0
spark.dynamicAllocation.maxExecutors 20
spark.executor.instances 2
Run Code Online (Sandbox Code Playgroud)
根据我的理解,spark.executor.instances 是我们在提交 pySpark 作业时定义为 --num-executors 的内容。
我有以下两个问题:
如果我--num-executors 5在作业提交期间使用它会覆盖spark.executor.instances 2配置设置吗?
spark.executor.instances当动态分配最小和最大执行器已经定义时定义的目的是什么?
我有一个 Excel 文件,其中“值”列包含不同的语言语句。我想将整个值栏翻译成英文。
出于测试目的,我使用下面的代码,但它引发了一些异常
import pandas as pd
from googletrans import Translator
exl_file = 'ipfile1.xlsx'
df = pd.read_excel(exl_file)
print(df)
translator = Translator()
df1 = df['value'].apply(translator.translate, src='es', dest='en').apply(getattr, args=('text',))
print(df1)
Run Code Online (Sandbox Code Playgroud)
您能否指导如何在每一行上应用翻译器将其转换为英语?
我正在使用 pyspark 生成一个数据框,只有当 amt = 0 时,我才需要使用前一行的“amt”值更新“amt”列。
例如,下面是我的数据框
+---+-----+
| id|amt |
+---+-----+
| 1| 5|
| 2| 0|
| 3| 0|
| 4| 6|
| 5| 0|
| 6| 3|
+---+-----+
Run Code Online (Sandbox Code Playgroud)
现在,我想要创建以下 DF。每当 amt = 0 时, modi_amt col 将包含前一行的非零值,否则没有变化。
+---+-----+----------+
| id|amt |modi_amt |
+---+-----+----------+
| 1| 5| 5|
| 2| 0| 5|
| 3| 0| 5|
| 4| 6| 6|
| 5| 0| 6|
| 6| 3| 3|
+---+-----+----------+
Run Code Online (Sandbox Code Playgroud)
我能够获得之前的行值,但需要帮助出现多个 0 amt 的行(例如,id = 2,3)
我正在使用的代码:
from …Run Code Online (Sandbox Code Playgroud) python-3.x apache-spark apache-spark-sql pyspark pyspark-sql