小编jeg*_*don的帖子

将大型Spark Dataframe保存为S3中的单个json文件

我试图将Spark DataFrame(超过20G)保存到Amazon S3中的单个json文件,我保存数据帧的代码如下:

dataframe.repartition(1).save("s3n://mybucket/testfile","json")
Run Code Online (Sandbox Code Playgroud)

但是我从S3获得错误"你提议的上传超过了允许的最大大小",我知道亚马逊允许的最大文件大小是5GB.

是否可以使用Spark的S3分段上传?还是有另一种方法来解决这个问题?

顺便说一句,我需要在一个文件中的数据,因为另一个用户将在之后下载它.

*我在使用spark-ec2脚本创建的3节点集群中使用apache spark 1.3.1.

非常感谢

JG

dataframe apache-spark apache-spark-sql pyspark

17
推荐指数
2
解决办法
3万
查看次数

如何在PySpark中使用窗口函数?

我正在尝试使用一些Windows函数(ntilepercentRank)作为数据框,但我不知道如何使用它们.

有人可以帮我这个吗?在Python API文档中没有关于它的示例.

具体来说,我试图在我的数据框中获取数字字段的分位数.

我正在使用spark 1.4.0.

python sql window-functions apache-spark pyspark

15
推荐指数
1
解决办法
3万
查看次数

Pyspark采用纱线集群模式

有没有办法在不使用spark-submit脚本的情况下使用yarn-cluster模式运行pyspark脚本?我需要这样,因为我会将此代码集成到django Web应用程序中.

当我尝试在纱线群集模式下运行任何脚本时,我收到以下错误:

org.apache.spark.SparkException: Detected yarn-cluster mode, but isn't running on a cluster. Deployment to YARN is not supported directly by SparkContext. Please use spark-submit.
Run Code Online (Sandbox Code Playgroud)

我正在以下列方式创建sparkContext:

        conf = (SparkConf()
            .setMaster("yarn-cluster")
            .setAppName("DataFrameTest"))

        sc = SparkContext(conf = conf)

        #Dataframe code ....
Run Code Online (Sandbox Code Playgroud)

谢谢

hadoop-yarn apache-spark pyspark

8
推荐指数
1
解决办法
1万
查看次数