使用PyArrow从HDFS读取实木复合地板文件

Jay*_*Jay 2 hdfs parquet pyarrow

我知道我可以使用pyarrow连接到HDFS群集 pyarrow.hdfs.connect()

我也知道我可以利用读取拼花文件pyarrow.parquetread_table()

但是,read_table()接受一个文件路径,而hdfs.connect()给我一个HadoopFileSystem实例。

是否可以仅使用pyarrow(安装了libhdfs3)来获取驻留在HDFS集群中的拼花文件/文件夹?我希望获得的是to_pydict()函数,然后可以传递数据。

Wes*_*ney 5

尝试

fs = pa.hdfs.connect(...)
fs.read_parquet('/path/to/hdfs-file', **other_options)
Run Code Online (Sandbox Code Playgroud)

要么

import pyarrow.parquet as pq
with fs.open(path) as f:
    pq.read_table(f, **read_options)
Run Code Online (Sandbox Code Playgroud)

我打开了https://issues.apache.org/jira/browse/ARROW-1848,关于添加一些与此有关的更明确的文档