集群模式下pyarrow通过spark-submit失败

VSh*_*kar 5 pyspark spark-submit cluster-mode

我有一个简单的 Pyspark 代码

导入 pyarrow fs = pyarrow.hdfs.connect()

如果我在“客户端”模式下使用spark-submit运行它，它工作正常，但在“集群”模式下，会抛出错误

Traceback (most recent call last):
  File "t3.py", line 17, in <module>
    fs = pa.hdfs.connect()
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 181, in connect
    kerb_ticket=kerb_ticket, driver=driver)
  File "/opt/anaconda/3.6/lib/python3.6/site-packages/pyarrow/hdfs.py", line 37, in __init__
    self._connect(host, port, user, kerb_ticket, driver)
  File "io-hdfs.pxi", line 99, in pyarrow.lib.HadoopFileSystem._connect
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS connection failed

Run Code Online (Sandbox Code Playgroud)

所有必需的 python 库都安装在我的 Hadoop 集群中的每个节点上。我已经通过在 pyspark 每个节点上单独测试此代码来进行验证。

但无法通过集群模式下的spark-submit使其工作？

有任何想法吗？

香卡尔

归档时间：	7 年，10 月前
查看次数：	441 次
最近记录：	7 年，10 月前