Fri*_*izz 17 hadoop hdfs apache-spark
想象一下,我在HDFS托管的文件上做了一些Spark操作.像这样的东西:
var file = sc.textFile("hdfs://...")
val items = file.map(_.split('\t'))
...
Run Code Online (Sandbox Code Playgroud)
因为在Hadoop世界中,代码应该放在数据所在的位置,对吧?
所以我的问题是:Spark工作人员如何知道HDFS数据节点?Spark如何知道执行代码的数据节点?
G Q*_*ana 14
Spark重用Hadoop类:当你调用时textFile
,它会创建一个TextInputFormat,它有一个getSplits
方法(一个split大致是一个分区或块),然后每个InputSplit都有getLocations
和getLocationInfo
方法.
归档时间: |
|
查看次数: |
4854 次 |
最近记录: |