标签: azure-data-factory

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义?

我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤:

  1. 从网络下载图像;
  2. 处理图像。

我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都使用它来执行数据挖掘类型的任务。我想知道对于图像处理和爬行等其他批处理任务来说,这是否是一个可行的选择。

amazon-data-pipeline google-cloud-platform google-cloud-dataflow azure-data-factory apache-beam

5
推荐指数
1
解决办法
1950
查看次数

Azure 数据工厂的单元测试

我有一个 VSTS CI/CD 管道,它将本地的 Azure 数据工厂项目设置部署到 Azure 平台中的现有数据工厂。有没有办法可以对我的项目进行单元测试?我知道构建定义中有一个 Visual Studio 测试任务。如何为 ADF 创建单元测试项目?任何建议都会有所帮助。

unit-testing azure azure-data-factory

5
推荐指数
1
解决办法
3513
查看次数

仅当当前执行完成时,Azure 数据工厂 V2 触发管道

有没有一种方法可以在 Azure 数据工厂中创建一个触发器,该触发器仅在管道尚未运行时才启动它?我基本上想连续运行管道,因此无论出于什么原因它完成(失败/成功),我希望它尽快恢复。

azure azure-data-factory

5
推荐指数
1
解决办法
4368
查看次数

复制活动失败并出现以下错误

{“errorCode”:“2200”,“message”:“ErrorCode = FailedDbOperation,'Type = Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message =数据库操作失败,出现以下错误:'PdwManagedToNativeInteropException ErrorNumber:46724,MajorCode: 467,次要代码:24,严重性:20,状态:2,抛出“Microsoft.SqlServer.DataWarehouse.Tds.PdwManagedToNativeInteropException”类型的异常。',Source =,''Type = System.Data.SqlClient.SqlException,Message = PdwManagedToNativeInteropException 错误号:46724,主要代码:467,次要代码:24,严重性:20,状态:2,抛出类型为“Microsoft.SqlServer.DataWarehouse.Tds.PdwManagedToNativeInteropException”的异常。,源 = .Net SqlClient 数据提供程序,SqlErrorNumber = 100000 ,Class=16,ErrorCode=-2146232060,State=1,Errors=[{Class=16,Number=100000,State=1,Message=PdwManagedToNativeInteropException 错误编号:46724,主要代码:467,次要代码:24,严重性:20,状态: 2,抛出了“Microsoft.SqlServer.DataWarehouse.Tds.PdwManagedToNativeInteropException”类型的异常。,},],'", "failureType": "UserError", "target": "hana_ODS_DEV" }

谁能告诉我这个错误的主要原因吗?我正在尝试将数据从 SAP HANA 迁移到 Azure SQL 数据仓库

azure hana azure-data-factory azure-sql-database

5
推荐指数
2
解决办法
2万
查看次数

Azure Databricks 到事件中心

我对 Databricks 很陌生。所以,请原谅我。这是我的要求

  1. 我的数据存储在 Azure DataLake 中
  2. 根据要求,我们只能通过Azure Databricks笔记本访问数据
  3. 我们必须从某些表中提取数据,与其他表连接,聚合
  4. 将数据发送到事件中心

我该如何执行此活动。我认为没有一次性的过程。我计划创建一个笔记本并通过 Azure 数据工厂运行它。将数据泵入 Blob 中,然后使用 .Net 将其发送到事件中心。但是,从 Azure 数据工厂我们只能运行 Azure Databricks 笔记本,不能存储在任何地方

azure azure-data-factory azure-data-lake databricks

5
推荐指数
1
解决办法
6693
查看次数

数据工厂中映射数据流不会忽略 CSV 文件文本值中的换行符

我在 Azure 数据工厂中遇到以下问题:

在 ADLS 中,我有一个 CSV 文件,其中的值包含换行符:

A, B, C
a, b, c
a, "b
b", c
Run Code Online (Sandbox Code Playgroud)

该 CSV 加载到具有以下设置的 (CSV) 数据集(在 ADF 中);第一行是标题、引号字符双引号 (")、列分隔符逗号 (,)、行分隔符(\r、\n 或 \r\n)和转义字符反斜杠 ()。

数据集的“预览数据”似乎工作正常并输出一个包含 2 行的表。这也是我期望的输出,因为数据的整体结构被保留。 在此输入图像描述

但是,当我尝试在映射数据流中使用此数据集并选择“数据预览”(直接在源节点中)时,我得到以下输出: 在此输入图像描述

即使整个值位于双引号之间,也不会忽略换行符。数据的整体结构现在被破坏,一行被分成两行。

当我将某些单元格中带有换行符的 Excel 文件另存为 CSV 时,我会得到此类数据。我应该如何解决这个问题?我应该以不同的方式保存 Excel,我应该在保存为 CSV 之前尝试删除所有换行符,还是有办法让数据工厂解决这个问题?另外,为什么数据集中的预览数据功能似乎工作正常,而映射数据流中的数据预览功能却不能正常工作?

csv azure azure-data-factory

5
推荐指数
1
解决办法
6736
查看次数

如何在 Azure 数据工厂中执行 SQL 查询

我在 ADF 中创建一个管道来执行复制活动。我的源数据库是 Azure SQL 数据库,接收器是 Azure Blob。我想在 ADF 中执行 SQL 查询,以便在将数据复制到 Blob 后从源中删除数据。我不允许使用复制或查找来执行查询。他们是否有任何自定义方式来执行此操作。我需要创建一个视图并且必须执行一些活动。请帮助

sql-server cloud azure azure-data-factory azure-sql-database

5
推荐指数
2
解决办法
2万
查看次数

获取元数据如何对其输出进行排序/排序?

我设置了一个 DataFactory 管道,用于获取 Azure Data Lake Storage Gen2 中的文件列表,然后使用 ForEach 循环迭代每个文件。

我使用“获取元数据”活动来生成文件列表,其输出的参数是“子项目”。

我想确保列表(子项目)始终按名称顺序排序。我的问题是子项目的默认排序方法是什么,或者我可以手动排序吗?

谢谢

            "name": "GetMetadata",
            "description": "",
            "type": "GetMetadata",
            "dependsOn": [
                {
                    "activity": "Execute Previous Activity",
                    "dependencyConditions": [
                        "Succeeded"
                    ]
                }
            ],
            "policy": {
                "timeout": "7.00:00:00",
                "retry": 0,
                "retryIntervalInSeconds": 30,
                "secureOutput": false,
                "secureInput": false
            },
            "userProperties": [],
            "typeProperties": {
                "dataset": {
                    "referenceName": "Folder",
                    "type": "DatasetReference"
                },
                "fieldList": [
                    "childItems"
                ]
            }
        },
Run Code Online (Sandbox Code Playgroud)

azure-data-factory

5
推荐指数
1
解决办法
6644
查看次数

将数组转换为逗号分隔字符串的 ADF 表达式

这似乎非常基本,但我无法找到合适的管道表达式函数来实现此目的。

我设置了一个具有以下值的数组变量 VAR1,它是 ADF 管道中 SQL 查找活动的输出:

[
    {
        "Code1": "1312312"
    },
    {
        "Code1": "3524355"
    }
]
Run Code Online (Sandbox Code Playgroud)

现在,我需要将其转换为逗号分隔的字符串,以便我可以将其传递给下一个活动中的 SQL 查询 - 类似于:

"'1312312','3524355'"

我无法找到表达式函数来迭代数组元素,也无法将数组转换为字符串。我看到的唯一管道表达式函数是将字符串转换为数组,而不是相反。

我错过了一些基本的东西吗?如何才能实现这一目标?

azure azure-data-factory

5
推荐指数
3
解决办法
2万
查看次数

带单引号的 ADF 数据流连接表达式

我需要使用 Azure 数据流表达式生成器生成 SQL 字符串,但它不允许我使用 Concat 函数在字符串之间添加单引号

我需要一个如下的 SQL 字符串

SELECT * FROM ABC WHERE myDate <= '2019-10-10'
Run Code Online (Sandbox Code Playgroud)

这里 2019-10-10 来自参数,所以我构建的表达式如下

concat('SELECT * FROM ABC WHERE myDate >=','''',$ToDate,'''')
Run Code Online (Sandbox Code Playgroud)

但上面的语句无法解析表达式。

结果将作为 SQL 查询执行。SQL 查询不允许使用双引号。它必须是单引号。

使用数据工厂表达式可以轻松实现这一点,但使用天蓝色数据流表达式则无法实现。

sql expression quote google-cloud-dataflow azure-data-factory

5
推荐指数
1
解决办法
2万
查看次数