保存/导出Spark SQL Zeppelin查询的结果

vce*_*ick 7 apache-spark-sql apache-zeppelin

我们正在使用apache zeppelin来分析我们的数据集.我们有一些疑问,我们想运行有大量来自他们回来,并想运行飞艇查询,但结果保存(显示被限制在1000)的结果.是否有一种简单的方法可以让zeppelin将查询的所有结果保存到s3存储桶中?

vce*_*ick 8

我成功地使用scala解释器制作了一个有效地完成我想要的笔记本.

z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")

df.repartition(1).write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .save("s3://amazon.bucket.com/csv_output/")
Run Code Online (Sandbox Code Playgroud)

值得一提的是,z.load函数似乎对我有用了一天,但后来我再次尝试了,由于某种原因我不得不在自己的段落中使用%dep解释器声明它,然后标准scala中的剩余代码翻译员