Jay*_*Jay 2 hdfs parquet pyarrow
我知道我可以使用pyarrow连接到HDFS群集 pyarrow.hdfs.connect()
我也知道我可以利用读取拼花文件pyarrow.parquet的read_table()
但是,read_table()接受一个文件路径,而hdfs.connect()给我一个HadoopFileSystem实例。
是否可以仅使用pyarrow(安装了libhdfs3)来获取驻留在HDFS集群中的拼花文件/文件夹?我希望获得的是to_pydict()函数,然后可以传递数据。
尝试
fs = pa.hdfs.connect(...)
fs.read_parquet('/path/to/hdfs-file', **other_options)
Run Code Online (Sandbox Code Playgroud)
要么
import pyarrow.parquet as pq
with fs.open(path) as f:
pq.read_table(f, **read_options)
Run Code Online (Sandbox Code Playgroud)
我打开了https://issues.apache.org/jira/browse/ARROW-1848,关于添加一些与此有关的更明确的文档
| 归档时间: |
|
| 查看次数: |
4076 次 |
| 最近记录: |