小编S12*_*DB8的帖子

使用 spark databricks 平台从 URL 读取数据

尝试在 databricks 社区版平台上使用 spark 从 url 读取数据我尝试使用 spark.read.csv 并使用 SparkFiles 但仍然缺少一些简单的点

url = "https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/adult.csv"
from pyspark import SparkFiles
spark.sparkContext.addFile(url)
# sc.addFile(url)
# sqlContext = SQLContext(sc)
# df = sqlContext.read.csv(SparkFiles.get("adult.csv"), header=True, inferSchema= True) 

df = spark.read.csv(SparkFiles.get("adult.csv"), header=True, inferSchema= True)
Run Code Online (Sandbox Code Playgroud)

得到路径相关的错误:

Path does not exist: dbfs:/local_disk0/spark-9f23ed57-133e-41d5-91b2-12555d641961/userFiles-d252b3ba-499c-42c9-be48-96358357fb75/adult.csv;'

我也尝试过其他方式

val content = scala.io.Source.fromURL("https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/adult.csv").mkString

 # val list = content.split("\n").filter(_ != "")
   val rdd = sc.parallelize(content)
   val df = rdd.toDF

SyntaxError: invalid syntax
  File "<command-332010883169993>", line 16
    val content = scala.io.Source.fromURL("https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/adult.csv").mkString
              ^
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud)

数据应该直接加载到 …

scala apache-spark apache-spark-sql pyspark databricks

6
推荐指数
2
解决办法
1万
查看次数

Hive和Hadoop MapReduce之间的关系?

是否有任何Hive内部流程连接以减少或映射任务?

加上那个!

  • Hive如何与MapReduce相关工作?
  • 如何安排工作?
  • 查询结果如何返回到配置单元驱动程序?

hadoop hive mapreduce hdfs

5
推荐指数
1
解决办法
945
查看次数