你如何从PySpark的RDD中删除行?特别是第一行,因为它往往包含我的数据集中的列名.从细读API,我似乎找不到一个简单的方法来做到这一点.当然我可以通过Bash/HDFS来做到这一点,但我只是想知道这是否可以在PySpark中完成.
我正在AWS上设置Spark 0.9,并且发现在启动交互式Pyspark shell时,我的执行者/远程工作者首先被注册:
14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Registered executor:
Actor[akka.tcp://sparkExecutor@ip-xx-xx-xxx-xxx.ec2.internal:54110/user/
Executor#-862786598] with ID 0
Run Code Online (Sandbox Code Playgroud)
在我有机会运行任何东西之前,几乎立即解除了关联:
14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Executor 0 disconnected,
so removing it
14/07/08 22:48:05 ERROR scheduler.TaskSchedulerImpl: Lost an executor 0 (already
removed): remote Akka client disassociated
Run Code Online (Sandbox Code Playgroud)
知道什么可能是错的吗?我已经尝试调整JVM选项spark.akka.frameSize和spark.akka.timeout,但我很确定这不是问题,因为(1)我没有运行任何东西,以及(2)我的执行程序在启动后几秒钟断开连接,这完全在默认的100秒超时内.
谢谢!
插口