Nis*_*mar 9 python hadoop file-handling hdfs
从本地 python 脚本在远程HDFS 中创建/写入/更新文件的最佳方法是什么?
我能够列出文件和目录,但写入似乎是一个问题。
他们使用默认情况下未启用的WebHDFS,并且在没有 Kerberos 或 Apache Knox 的情况下不安全。
这就是您链接到的库的upload功能hdfs所使用的。
您可以使用pyspark。
示例 -如何将 pyspark 数据帧写入 HDFS,然后如何将其读回数据帧?
snakebite已经提到了,但它不写文件
pyarrow有一个 FileSystem.open() 函数,应该也能够写入 HDFS,尽管我没有尝试过。