小编Jac*_*ack的帖子

PySpark Drop Rows

你如何从PySpark的RDD中删除行?特别是第一行,因为它往往包含我的数据集中的列名.从细读API,我似乎找不到一个简单的方法来做到这一点.当然我可以通过Bash/HDFS来做到这一点,但我只是想知道这是否可以在PySpark中完成.

python mapreduce apache-spark

21
推荐指数
3
解决办法
3万
查看次数

Spark - 远程Akka客户端解除关联

我正在AWS上设置Spark 0.9,并且发现在启动交互式Pyspark shell时,我的执行者/远程工作者首先被注册:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Registered executor:
Actor[akka.tcp://sparkExecutor@ip-xx-xx-xxx-xxx.ec2.internal:54110/user/
Executor#-862786598] with ID 0
Run Code Online (Sandbox Code Playgroud)

在我有机会运行任何东西之前,几乎立即解除了关联:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Executor 0 disconnected, 
so removing it
14/07/08 22:48:05 ERROR scheduler.TaskSchedulerImpl: Lost an executor 0 (already 
removed): remote Akka client disassociated
Run Code Online (Sandbox Code Playgroud)

知道什么可能是错的吗?我已经尝试调整JVM选项spark.akka.frameSize和spark.akka.timeout,但我很确定这不是问题,因为(1)我没有运行任何东西,以及(2)我的执行程序在启动后几秒钟断开连接,这完全在默认的100秒超时内.

谢谢!

插口

mapreduce apache-spark

6
推荐指数
1
解决办法
3285
查看次数

标签 统计

apache-spark ×2

mapreduce ×2

python ×1