直接从HDFS读取文件

New*_*101 3 hadoop hdfs

有没有一种方法可以直接通过使用HDFS路径从HDFS读取任何文件格式,而不必从本地从HDFS提取文件并读取它。

phi*_*ert 5

您可以cat在HDFS上使用命令来读取常规文本文件。

hdfs dfs -cat /path/to/file.csv
Run Code Online (Sandbox Code Playgroud)

要读取诸如gz, bz2etc之类的压缩文件,可以使用:

hdfs dfs -text /path/to/file.gz
Run Code Online (Sandbox Code Playgroud)

这是Hadoop本身使用FsShellcomamnds 支持的两种读取方法。对于其他复杂的文件类型,您将不得不使用更复杂的方式,例如Java程序或类似的方法。