标签: apache-spark

如何在sc.textFile中加载本地文件,而不是HDFS

我正在关注伟大的火花教程

所以我试图在46m:00s加载README.md但是没有做到我正在做的是这样的:

$ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash
bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4
bash-4.1# ls README.md
README.md
bash-4.1# ./bin/spark-shell
scala> val f = sc.textFile("README.md")
14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556
14/12/04 12:11:14 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 160.2 KB, free 265.3 MB)
f: org.apache.spark.rdd.RDD[String] = README.md MappedRDD[1] at textFile at <console>:12
scala> val wc = f.flatMap(l => l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
org.apache.hadoop.mapred.InvalidInputException: …
Run Code Online (Sandbox Code Playgroud)

scala apache-spark

95
推荐指数
9
解决办法
15万
查看次数

使用Spark加载CSV文件

我是Spark的新手,我正在尝试使用Spark从文件中读取CSV数据.这就是我在做的事情:

sc.textFile('file.csv')
    .map(lambda line: (line.split(',')[0], line.split(',')[1]))
    .collect()
Run Code Online (Sandbox Code Playgroud)

我希望这个调用能给我一个我文件的两个第一列的列表,但是我收到了这个错误:

File "<ipython-input-60-73ea98550983>", line 1, in <lambda>
IndexError: list index out of range
Run Code Online (Sandbox Code Playgroud)

虽然我的CSV文件不止一列.

python csv apache-spark pyspark

95
推荐指数
10
解决办法
24万
查看次数

连接Apache Spark DataFrame中的列

我们如何在Apache Spark DataFrame中连接两列?我们可以使用Spark SQL中的任何函数吗?

sql dataframe apache-spark apache-spark-sql

95
推荐指数
8
解决办法
20万
查看次数

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.

需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.

csv scala apache-spark spark-csv

92
推荐指数
8
解决办法
17万
查看次数

如何覆盖spark中的输出目录

我有一个火花流应用程序,它可以生成每分钟的数据集.我需要保存/覆盖已处理数据的结果.

当我试图覆盖数据集org.apache.hadoop.mapred.FileAlreadyExistsException时停止执行.

我设置了Spark属性set("spark.files.overwrite","true"),但没有运气.

如何覆盖或预先删除spark中的文件?

apache-spark

91
推荐指数
5
解决办法
14万
查看次数

如何在Windows上设置Spark?

我正在尝试在Windows上设置Apache Spark.

经过一番搜索,我明白独立模式就是我想要的.我要下载哪些二进制文件才能在Windows中运行Apache spark?我在火花下载页面看到了带有hadoop和cdh的发行版.

我没有在网上引用这个.我们非常感谢您的分步指南.

windows apache-spark

89
推荐指数
5
解决办法
19万
查看次数

Spark Kill运行应用程序

我有一个正在运行的Spark应用程序,它占用了我的其他应用程序不会分配任何资源的所有核心.

我做了一些快速的研究,人们建议使用YARN kill或/ bin/spark-class来杀死命令.但是,我使用CDH版本和/ bin/spark-class甚至根本不存在,YARN kill应用程序也不起作用.

在此输入图像描述

任何人都可以和我一起吗?

hadoop-yarn apache-spark pyspark

86
推荐指数
3
解决办法
12万
查看次数

进度条上的数字在火花壳中意味着什么?

在我的spark-shell中,当我执行一个函数时,下面的条目是什么意思?

[Stage7:===========>                              (14174 + 5) / 62500]
Run Code Online (Sandbox Code Playgroud)

apache-spark

83
推荐指数
2
解决办法
1万
查看次数

apache火花可以没有hadoop吗?

SparkHadoop之间是否有任何依赖关系?

如果没有,当我在没有Hadoop的情况下运行Spark时,是否会有任何我想念的功能?

hadoop mapreduce amazon-s3 mesos apache-spark

83
推荐指数
6
解决办法
4万
查看次数

在Spark Scala中重命名DataFrame的列名

我试图转换DataFrameSpark-Scala中的所有标题/列名称.截至目前,我想出了以下代码,它只替换了一个列名.

for( i <- 0 to origCols.length - 1) {
  df.withColumnRenamed(
    df.columns(i), 
    df.columns(i).toLowerCase
  );
}
Run Code Online (Sandbox Code Playgroud)

scala dataframe apache-spark apache-spark-sql

83
推荐指数
3
解决办法
16万
查看次数