小编use*_*380的帖子

为spark输出文件设置S3输出文件被授予者

我在AWS EMR上运行Spark,我在输出文件(rdd.saveAsTextFile('<file_dir_name>'))上获得正确权限时遇到了一些问题.在hive中,我会在开头添加一行,set fs.s3.canned.acl=BucketOwnerFullControl然后设置正确的权限.对于Spark,我尝试运行:

hadoop jar /mnt/var/lib/hadoop/steps/s-3HIRLHJJXV3SJ/script-runner.jar \
/home/hadoop/spark/bin/spark-submit --deploy-mode cluster --master yarn-cluster \
--conf "spark.driver.extraJavaOptions -Dfs.s3.canned.acl=BucketOwnerFullControl" \ 
hdfs:///user/hadoop/spark.py

Run Code Online (Sandbox Code Playgroud)

但是没有在输出文件上正确设置权限.将'fs.s3.canned.acl = BucketOwnerFullControl'或任何S3固定权限传递给spark作业的正确方法是什么？

提前致谢

hadoop amazon-s3 amazon-web-services apache-spark

use*_*380

lucky-day

2
推荐指数

1
解决办法

1758
查看次数