小编Jus*_*son的帖子

Java 读取 Parquet 文件到 JSON 输出

读取镶木地板文件正在工作,但使用缩进格式而不是所需的 JSON 输出格式。有任何想法吗?我在想我可能需要更改 GroupRecordConverter 但找不到太多文档。如果可以指出我,也会有所帮助。非常感谢您的帮助。

long num = numLines;
try {
  ParquetMetadata readFooter = ParquetFileReader.readFooter(conf, path, ParquetMetadataConverter.NO_FILTER);
  MessageType schema = readFooter.getFileMetaData().getSchema();
  ParquetFileReader r = new ParquetFileReader(conf,path,readFooter);

  PageReadStore pages = null;
  try{
    while(null != (pages = r.readNextRowGroup())) {
      final long rows = pages.getRowCount();
      System.out.println("Number of rows: " + rows);

      final MessageColumnIO columnIO = new ColumnIOFactory().getColumnIO(schema);
      final RecordReader recordReader = columnIO.getRecordReader(pages, new GroupRecordConverter(schema));
      String sTemp = "";
      for(int i=0; i<rows && num-->0; i++) {
        System.out.println(recordReader.read().toString())
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

当前缩进输出:

data1: value1 …
Run Code Online (Sandbox Code Playgroud)

java json hadoop apache-spark parquet

5
推荐指数
1
解决办法
4318
查看次数

标签 统计

apache-spark ×1

hadoop ×1

java ×1

json ×1

parquet ×1