PySpark:如何将 GitHub 库导入到 Databricks 中?

Hor*_*aje 4 import installation github pyspark databricks

我想在 Databricks: iForest中使用这个库进行异常检测。这个库无法通过 PyPi 安装。

如何在 Databricks 中安装来自 GitHub 的库?我读到有关使用称为“鸡蛋”的东西,但我不太明白应该如何使用它。

bla*_*hop 5

您可以克隆该存储库并创建一个 Python 包,如下所述: https: //github.com/titicaca/spark-iforest

步骤2.打包pyspark-iforest并通过pip安装,如果不需要python pkg则跳过此步骤

cd spark-iforest/python

python setup.py sdist

pip install dist/pyspark-iforest-<version>.tar.gz

这里你只需要前两个命令来生成包,但你必须更改第二个命令来生成egg包而不是源分发包:

python3 setup.py bdist_egg
Run Code Online (Sandbox Code Playgroud)

现在,您将在文件夹中找到该文件/dist

pyspark_iforest-2.4.0-py3.7.egg
Run Code Online (Sandbox Code Playgroud)

最后,在 Databricks 上,选择“创建”>“库”,然后选择“Python Egg”上传生成的文件。更多详情可在这找到。