Python写入hdfs文件

Nis*_*mar 9 python hadoop file-handling hdfs

从本地 python 脚本在远程HDFS 中创建/写入/更新文件的最佳方法是什么?

我能够列出文件和目录,但写入似乎是一个问题。

我已经搜索了hdfs蛇咬,但没有一个提供干净的方法来做到这一点。

cri*_*007 1

其他答案有什么问题

他们使用默认情况下未启用的WebHDFS,并且在没有 Kerberos 或 Apache Knox 的情况下不安全。

这就是您链接到的库的upload功能hdfs所使用的。

使用 Python 写入 HDFS 的本机(更安全)方法

您可以使用pyspark

示例 -如何将 pyspark 数据帧写入 HDFS,然后如何将其读回数据帧?


snakebite已经提到了,但它不写文件


pyarrow有一个 FileSystem.open() 函数,应该也能够写入 HDFS,尽管我没有尝试过。