小编Jac*_*ack的帖子

PySpark Drop Rows

你如何从PySpark的RDD中删除行？特别是第一行,因为它往往包含我的数据集中的列名.从细读API,我似乎找不到一个简单的方法来做到这一点.当然我可以通过Bash/HDFS来做到这一点,但我只是想知道这是否可以在PySpark中完成.

python mapreduce apache-spark

Jac*_*ack

lucky-day

21
推荐指数

3
解决办法

3万
查看次数

Spark - 远程Akka客户端解除关联

我正在AWS上设置Spark 0.9,并且发现在启动交互式Pyspark shell时,我的执行者/远程工作者首先被注册:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Registered executor:
Actor[akka.tcp://sparkExecutor@ip-xx-xx-xxx-xxx.ec2.internal:54110/user/
Executor#-862786598] with ID 0

Run Code Online (Sandbox Code Playgroud)

在我有机会运行任何东西之前,几乎立即解除了关联:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Executor 0 disconnected, 
so removing it
14/07/08 22:48:05 ERROR scheduler.TaskSchedulerImpl: Lost an executor 0 (already 
removed): remote Akka client disassociated

Run Code Online (Sandbox Code Playgroud)

知道什么可能是错的吗？我已经尝试调整JVM选项spark.akka.frameSize和spark.akka.timeout,但我很确定这不是问题,因为(1)我没有运行任何东西,以及(2)我的执行程序在启动后几秒钟断开连接,这完全在默认的100秒超时内.

谢谢!

插口

mapreduce apache-spark

Jac*_*ack

lucky-day

6
推荐指数

1
解决办法

3285
查看次数