标签: apache-spark

如何在sc.textFile中加载本地文件,而不是HDFS

我正在关注伟大的火花教程

所以我试图在46m:00s加载README.md但是没有做到我正在做的是这样的:

$ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash
bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4
bash-4.1# ls README.md
README.md
bash-4.1# ./bin/spark-shell
scala> val f = sc.textFile("README.md")
14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556
14/12/04 12:11:14 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory (estimated size 160.2 KB, free 265.3 MB)
f: org.apache.spark.rdd.RDD[String] = README.md MappedRDD[1] at textFile at <console>:12
scala> val wc = f.flatMap(l => l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
org.apache.hadoop.mapred.InvalidInputException: …

Run Code Online (Sandbox Code Playgroud)

scala apache-spark

Jas*_*Jas

2014 12-11

95
推荐指数

9
解决办法

15万
查看次数

使用Spark加载CSV文件

我是Spark的新手,我正在尝试使用Spark从文件中读取CSV数据.这就是我在做的事情:

sc.textFile('file.csv')
    .map(lambda line: (line.split(',')[0], line.split(',')[1]))
    .collect()

Run Code Online (Sandbox Code Playgroud)

我希望这个调用能给我一个我文件的两个第一列的列表,但是我收到了这个错误:

File "<ipython-input-60-73ea98550983>", line 1, in <lambda>
IndexError: list index out of range

Run Code Online (Sandbox Code Playgroud)

虽然我的CSV文件不止一列.

python csv apache-spark pyspark

Ker*_*ael

lucky-day

95
推荐指数

10
解决办法

24万
查看次数

连接Apache Spark DataFrame中的列

我们如何在Apache Spark DataFrame中连接两列？我们可以使用Spark SQL中的任何函数吗？

sql dataframe apache-spark apache-spark-sql

Nip*_*pun

2018 06-17

95
推荐指数

8
解决办法

20万
查看次数

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.

需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.

csv scala apache-spark spark-csv

use*_*076

2018 01-13

92
推荐指数

8
解决办法

17万
查看次数

如何覆盖spark中的输出目录

我有一个火花流应用程序,它可以生成每分钟的数据集.我需要保存/覆盖已处理数据的结果.

当我试图覆盖数据集org.apache.hadoop.mapred.FileAlreadyExistsException时停止执行.

我设置了Spark属性set("spark.files.overwrite","true"),但没有运气.

如何覆盖或预先删除spark中的文件？

apache-spark

Vij*_*uri

2014 11-20

91
推荐指数

5
解决办法

14万
查看次数

如何在Windows上设置Spark？

我正在尝试在Windows上设置Apache Spark.

经过一番搜索,我明白独立模式就是我想要的.我要下载哪些二进制文件才能在Windows中运行Apache spark？我在火花下载页面看到了带有hadoop和cdh的发行版.

我没有在网上引用这个.我们非常感谢您的分步指南.

windows apache-spark

Siv*_*iva

2016 08-09

89
推荐指数

5
解决办法

19万
查看次数

Spark Kill运行应用程序

我有一个正在运行的Spark应用程序,它占用了我的其他应用程序不会分配任何资源的所有核心.

我做了一些快速的研究,人们建议使用YARN kill或/ bin/spark-class来杀死命令.但是,我使用CDH版本和/ bin/spark-class甚至根本不存在,YARN kill应用程序也不起作用.

在此输入图像描述

任何人都可以和我一起吗？

hadoop-yarn apache-spark pyspark

B.M*_*.W.

lucky-day

86
推荐指数

3
解决办法

12万
查看次数

进度条上的数字在火花壳中意味着什么？

在我的spark-shell中,当我执行一个函数时,下面的条目是什么意思？

[Stage7:===========>                              (14174 + 5) / 62500]

Run Code Online (Sandbox Code Playgroud)

apache-spark

rmc*_*own

2016 02-03

83
推荐指数

2
解决办法

1万
查看次数

apache火花可以没有hadoop吗？

Spark和Hadoop之间是否有任何依赖关系？

如果没有,当我在没有Hadoop的情况下运行Spark时,是否会有任何我想念的功能？

hadoop mapreduce amazon-s3 mesos apache-spark

nav*_*rri

2016 09-20

83
推荐指数

6
解决办法

4万
查看次数

在Spark Scala中重命名DataFrame的列名

我试图转换DataFrameSpark-Scala中的所有标题/列名称.截至目前,我想出了以下代码,它只替换了一个列名.

for( i <- 0 to origCols.length - 1) {
  df.withColumnRenamed(
    df.columns(i), 
    df.columns(i).toLowerCase
  );
}

Run Code Online (Sandbox Code Playgroud)

scala dataframe apache-spark apache-spark-sql

Sam*_*Sam

2018 06-17

83
推荐指数

3
解决办法

16万
查看次数

标签统计

apache-spark ×10

scala ×3

apache-spark-sql ×2

csv ×2

dataframe ×2

pyspark ×2

amazon-s3 ×1

hadoop ×1

hadoop-yarn ×1

mapreduce ×1

mesos ×1

python ×1

spark-csv ×1

sql ×1

windows ×1

标签 统计

标签统计