使用PyArrow从HDFS读取实木复合地板文件

Question

我知道我可以使用pyarrow连接到HDFS群集 pyarrow.hdfs.connect()

我也知道我可以利用读取拼花文件pyarrow.parquet的read_table()

但是，read_table()接受一个文件路径，而hdfs.connect()给我一个HadoopFileSystem实例。

是否可以仅使用pyarrow（安装了libhdfs3）来获取驻留在HDFS集群中的拼花文件/文件夹？我希望获得的是to_pydict()函数，然后可以传递数据。

Answer 1

尝试

fs = pa.hdfs.connect(...)
fs.read_parquet('/path/to/hdfs-file', **other_options)

要么

import pyarrow.parquet as pq
with fs.open(path) as f:
    pq.read_table(f, **read_options)

我打开了https://issues.apache.org/jira/browse/ARROW-1848，关于添加一些与此有关的更明确的文档