我试图简单读取存储在HDFS中的Avro文件.我发现当它在本地文件系统上时如何阅读....
FileReader reader = DataFileReader.openReader(new File(filename), new GenericDatumReader());
for (GenericRecord datum : fileReader) {
String value = datum.get(1).toString();
System.out.println("value = " value);
}
reader.close();
Run Code Online (Sandbox Code Playgroud)
但是,我的文件是HDFS.我不能给openReader一个Path或一个FSDataInputStream.如何在HDFS中读取Avro文件?
编辑:我通过创建实现SeekableInput的自定义类(SeekableHadoopInput)来实现此目的.我从github上的"Ganglion"中"偷"了这个.似乎仍然会有一个Hadoop/Avro集成路径.
谢谢
Mar*_*ann 23
该FsInput类(在Avro的-mapred子模块,因为它依赖于Hadoop的)可以做到这一点.它提供Avro数据文件所需的可搜索输入流.
Path path = new Path("/path/on/hdfs");
Configuration config = new Configuration(); // make this your Hadoop env config
SeekableInput input = new FsInput(path, config);
DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>();
FileReader<GenericRecord> fileReader = DataFileReader.openReader(input, reader);
for (GenericRecord datum : fileReader) {
System.out.println("value = " + datum);
}
fileReader.close(); // also closes underlying FsInput
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
16274 次 |
| 最近记录: |