在数据块上运行 spark 时出错:构造函数 public XXX 未列入白名单

lid*_*ong 6 apache-spark pyspark databricks

我正在使用 azure databricks 并尝试从此页面运行一些示例 python 代码:https ://spark.apache.org/docs/latest/ml-pipeline.html

并得到这个异常: py4j.security.Py4JSecurityException: Constructor public org.apache.spark.ml.classification.LogisticRegression(java.lang.String) 未列入白名单。

谢谢。立东

Dus*_*n V 6

在启用凭据传递的情况下使用高并发集群时,此错误会出现在某些库方法中。如果这是您的情况,则可能是一种解决方法是使用不同的集群模式。

py4j.security.Py4JSecurityException: ... is not whitelisted 当你访问了 Azure Databricks 未明确标记为 Azure Data Lake Storage 凭据传递群集安全的方法时,将引发此异常。在大多数情况下,这意味着该方法可以允许 Azure Data Lake Storage 凭据直通群集上的用户访问另一个用户的凭据。

参考:https : //docs.azuredatabricks.net/spark/latest/data-sources/azure/adls-passthrough.html

  • 我可以确认它可以在没有凭证直通的普通集群上运行。我目前在标准模式集群上使用 databricks 运行时 6.1,数据湖访问是通过服务主体完成的。 (3认同)
  • 非常感谢你做的这些。如果你不知道这一点,你应该如何解决这个问题?... (2认同)
  • 正确的 URL,因为我无法编辑答案:https://learn.microsoft.com/en-us/azure/databricks/security/credential-passthrough/adls-passthrough (2认同)