相关疑难解决方法(0)

从技术上讲,s3n,s3a和s3有什么区别?

我知道https://wiki.apache.org/hadoop/AmazonS3的存在以及以下词语:

S3 Native FileSystem(URI scheme:s3n)用于在S3上读取和写入常规文件的本机文件系统.此文件系统的优点是您可以访问使用其他工具编写的S3上的文件.相反,其他工具可以访问使用Hadoop编写的文件.缺点是S3强加的文件大小限制为5GB.

S3A(URI方案:s3a)S3 Native的继承者s3n fs,S3a:系统使用亚马逊的库与S3交互.这允许S3a支持更大的文件(不超过5GB限制),更高性能的操作等等.文件系统旨在替代S3 Native的/后继者:只需替换URL模式,也可以从s3a访问从s3n:// URL访问的所有对象.

S3 Block FileSystem(URI scheme:s3)由S3支持的基于块的文件系统.文件存储为块,就像它们在HDFS中一样.这允许有效地实现重命名.此文件系统要求您为文件系统专用存储桶 - 不应使用包含文件的现有存储桶,也不应将其他文件写入同一存储桶.此文件系统存储的文件可能大于5GB,但它们不能与其他S3工具互操作.

为什么URI上的字母更改会产生这样的差异?例如

val data = sc.textFile("s3n://bucket-name/key")
Run Code Online (Sandbox Code Playgroud)

val data = sc.textFile("s3a://bucket-name/key")
Run Code Online (Sandbox Code Playgroud)

这种变化背后的技术差异是什么?有什么好文章我可以读到这个吗?

amazon-s3 amazon-web-services aws-sdk

105
推荐指数
2
解决办法
5万
查看次数

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?

spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism

我试图将它们都设置为SparkSQL,但第二阶段的任务编号始终为200.

performance hadoop bigdata apache-spark apache-spark-sql

54
推荐指数
3
解决办法
6万
查看次数