我刚刚开始使用Apache Spark(在Scala中,但语言无关紧要).我正在使用独立模式,我想要从本地文件系统处理文本文件(因此没有像HDFS那样分发).
根据该textFile方法的文档SparkContext,它将
从HDFS读取文本文件,本地文件系统(在所有节点上都可用)或任何支持Hadoop的文件系统URI,并将其作为字符串的RDD返回.
对我来说不清楚的是,是否可以将整个文本文件复制到所有节点,或者如果输入数据已经被分区,例如,如果使用4个节点和1000行的csv文件,则每个节点上有250行.
我怀疑每个节点应该有整个文件,但我不确定.
每个节点应包含一个完整的文件.在这种情况下,就该文件而言,本地文件系统在逻辑上与HDFS无法区分.
| 归档时间: |
|
| 查看次数: |
33088 次 |
| 最近记录: |