S3 和 EMRFS 有什么区别?

gor*_*ros 4 hadoop amazon-s3 hdfs amazon-emr

我不明白 S3 和 EMRFS 之间的细微差别。我们应该将 EMRFS 视为允许从 Hadoop 应用程序写入/读取 S3 的库和 API 的集合,还是更多?而且这个官方文档也无济于事。

And*_*ong 5

EMRFS 是一个实现 hadoops FileSystem api 的库。EMRFS 使 S3 看起来像 hdfs 或本地文件系统。然后被 hadoop 生态系统中的许多应用程序使用,例如 spark 和 hive。例如,这是使用 EMRFS 从 Spark 中的 S3 读取的方式

val df = spark.read.parquet("S3://s3-bucket/path/to/folder/")
df.write.csv("s3://s3-bucket/path/to/output/")
Run Code Online (Sandbox Code Playgroud)