我正在运行一个Spark批处理作业并使用,SparkSession因为我需要很多spark-sql功能来处理我的每个组件.它SparkContext在我的父组件中初始化,并作为传递给子组件SparkSession.
在我的一个子组件中,我想为我添加两个以上的配置SparkContext.因此,我需要检索SparkContext从SparkSession,停止并重新创建SparkSession与额外的配置.为此,我如何从SparkSession中检索SparkContext?
我试图在系统启动后 10 分钟以及每次重新启动时运行 bash 脚本。我计划@reboot crontab,但我不确定两件事
什么表达方式最适合我的情况?请注意,我无法运行“at”或系统计时器来完成此操作,因为我们无法访问两者。我正在 RHEL 7 上工作..
我一直在尝试从数据集中为所有行选择一组特定的列。我尝试了以下类似的方法。
train_features = train_df.loc[,[0,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18]]
Run Code Online (Sandbox Code Playgroud)
我想提一下,所有行都包含在内,但只需要编号的列即可。有没有更好的方法来解决这个问题。
样本数据:
age job marital education default housing loan equities contact duration campaign pdays previous poutcome emp.var.rate cons.price.idx cons.conf.idx euribor3m nr.employed y
56 housemaid married basic.4y 1 1 1 1 0 261 1 999 0 2 1.1 93.994 -36.4 3.299552287 5191 1
37 services married high.school 1 0 1 1 0 226 1 999 0 2 1.1 93.994 -36.4 0.743751247 5191 1
56 services married high.school 1 1 0 1 0 307 1 999 0 2 …Run Code Online (Sandbox Code Playgroud) apache-spark ×1
bash ×1
cron ×1
linux ×1
pandas ×1
python ×1
python-2.7 ×1
python-3.x ×1
rhel ×1
scala ×1