小编Nav*_*ian的帖子

从SparkSession中检索SparkContext

我正在运行一个Spark批处理作业并使用,SparkSession因为我需要很多spark-sql功能来处理我的每个组件.它SparkContext在我的父组件中初始化,并作为传递给子组件SparkSession.

在我的一个子组件中,我想为我添加两个以上的配置SparkContext.因此,我需要检索SparkContextSparkSession,停止并重新创建SparkSession与额外的配置.为此,我如何从SparkSession中检索SparkContext

scala apache-spark

11
推荐指数
2
解决办法
9993
查看次数

系统启动10分钟后运行bash脚本

我试图在系统启动后 10 分钟以及每次重新启动时运行 bash 脚本。我计划@reboot crontab,但我不确定两件事

  • 它是在第一次系统启动时运行还是仅在重新启动时运行。
  • 如何在重启后延迟运行 10 分钟。

什么表达方式最适合我的情况?请注意,我无法运行“at”或系统计时器来完成此操作,因为我们无法访问两者。我正在 RHEL 7 上工作..

linux bash cron rhel

5
推荐指数
2
解决办法
1万
查看次数

Panda .loc或.iloc从数据集中选择列

我一直在尝试从数据集中为所有行选择一组特定的列。我尝试了以下类似的方法。

train_features = train_df.loc[,[0,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18]]
Run Code Online (Sandbox Code Playgroud)

我想提一下,所有行都包含在内,但只需要编号的列即可。有没有更好的方法来解决这个问题。

样本数据:

age  job        marital   education    default   housing   loan   equities   contact     duration   campaign   pdays   previous   poutcome   emp.var.rate   cons.price.idx   cons.conf.idx   euribor3m     nr.employed   y
56   housemaid  married   basic.4y     1         1         1      1          0           261        1          999     0          2          1.1            93.994           -36.4           3.299552287   5191          1
37   services   married   high.school  1         0         1      1          0           226        1          999     0          2          1.1            93.994           -36.4           0.743751247   5191          1
56   services   married   high.school  1         1         0      1          0           307        1          999     0          2 …
Run Code Online (Sandbox Code Playgroud)

python python-2.7 python-3.x pandas

3
推荐指数
2
解决办法
1万
查看次数

标签 统计

apache-spark ×1

bash ×1

cron ×1

linux ×1

pandas ×1

python ×1

python-2.7 ×1

python-3.x ×1

rhel ×1

scala ×1