我使用saveAsTextFile将(密钥,值)对的RDD保存到文本文件中.在我使用sc.textFile("filename.txt")命令读回文本文件后,我最终得到了字符串,而不是(键,值)对.我的键曾经是字符串,值是浮点数列表.这是一个例子:
(u'ALM_0', [98.0, 110.0, 104.0, 6.0, 208.0, -262.0, 136.0, -204.67395833333333, 45.362440283766297, -196487.0, 1.0, 4.0, 2.5, 1.1180339887498949, 10.0, -46.0, 261.0, -3.6343749999999999])
Run Code Online (Sandbox Code Playgroud)
如何轻松将此字符串转换为(键,值)对?有没有Spark读取命令会在读取时执行此操作?
我正在使用Spark接口.
我EMR 4.0在AWS中创建了一个包含所有可用应用程序的实例Spark.我是通过AWS控制台手动完成的.我启动了集群,并在它启动时连接到主节点.我跑了pyspark.pyspark尝试创建时出现以下错误SparkContext:
2015-09-03 19:36:04,195 ERROR Thread-3 spark.SparkContext(Logging.scala:logError(96)) - - ec2-user,access = WRITE,inode ="/ user":hdfs:hadoop:drwxr- xr-x at
org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkFsPermission(FSPermissionChecker.java:271)
我没有添加任何自定义应用程序,也没有自举,并期望一切正常工作.不知道发生了什么事.任何建议将不胜感激.