在Azure DataFactory中执行python脚本

Mig*_*hty 2 azure azure-storage azure-data-factory

我将数据存储在blob中,我编写了一个python脚本来进行一些计算并创建另一个csv.如何在Azure Data Factory中执行此操作?

Jay*_*ong 6

威猛.您可以根据需要使用Azure Data Factory V2自定义活动.您可以使用Custom Activity直接执行命令来调用python脚本.

请参阅github上的这个示例.

希望它能帮到你.


Hau*_*low 5

另一种选择是使用 DatabricksSparkPython 活动。如果您想向外扩展,这很有意义,但可能需要对 PySpark 支持进行一些代码修改。原因的先决条件是 Azure Databricks 工作区。您必须将脚本上传到 DBFS 并可以通过 Azure 数据工厂触发它。以下示例触发脚本 pi.py:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
             "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

有关更多详细信息,请参阅文档