我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤:
我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都使用它来执行数据挖掘类型的任务。我想知道对于图像处理和爬行等其他批处理任务来说,这是否是一个可行的选择。
amazon-data-pipeline google-cloud-platform google-cloud-dataflow azure-data-factory apache-beam
我有一个 VSTS CI/CD 管道,它将本地的 Azure 数据工厂项目设置部署到 Azure 平台中的现有数据工厂。有没有办法可以对我的项目进行单元测试?我知道构建定义中有一个 Visual Studio 测试任务。如何为 ADF 创建单元测试项目?任何建议都会有所帮助。
有没有一种方法可以在 Azure 数据工厂中创建一个触发器,该触发器仅在管道尚未运行时才启动它?我基本上想连续运行管道,因此无论出于什么原因它完成(失败/成功),我希望它尽快恢复。
{“errorCode”:“2200”,“message”:“ErrorCode = FailedDbOperation,'Type = Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message =数据库操作失败,出现以下错误:'PdwManagedToNativeInteropException ErrorNumber:46724,MajorCode: 467,次要代码:24,严重性:20,状态:2,抛出“Microsoft.SqlServer.DataWarehouse.Tds.PdwManagedToNativeInteropException”类型的异常。',Source =,''Type = System.Data.SqlClient.SqlException,Message = PdwManagedToNativeInteropException 错误号:46724,主要代码:467,次要代码:24,严重性:20,状态:2,抛出类型为“Microsoft.SqlServer.DataWarehouse.Tds.PdwManagedToNativeInteropException”的异常。,源 = .Net SqlClient 数据提供程序,SqlErrorNumber = 100000 ,Class=16,ErrorCode=-2146232060,State=1,Errors=[{Class=16,Number=100000,State=1,Message=PdwManagedToNativeInteropException 错误编号:46724,主要代码:467,次要代码:24,严重性:20,状态: 2,抛出了“Microsoft.SqlServer.DataWarehouse.Tds.PdwManagedToNativeInteropException”类型的异常。,},],'", "failureType": "UserError", "target": "hana_ODS_DEV" }
谁能告诉我这个错误的主要原因吗?我正在尝试将数据从 SAP HANA 迁移到 Azure SQL 数据仓库
我对 Databricks 很陌生。所以,请原谅我。这是我的要求
我该如何执行此活动。我认为没有一次性的过程。我计划创建一个笔记本并通过 Azure 数据工厂运行它。将数据泵入 Blob 中,然后使用 .Net 将其发送到事件中心。但是,从 Azure 数据工厂我们只能运行 Azure Databricks 笔记本,不能存储在任何地方
我在 Azure 数据工厂中遇到以下问题:
在 ADLS 中,我有一个 CSV 文件,其中的值包含换行符:
A, B, C
a, b, c
a, "b
b", c
Run Code Online (Sandbox Code Playgroud)
该 CSV 加载到具有以下设置的 (CSV) 数据集(在 ADF 中);第一行是标题、引号字符双引号 (")、列分隔符逗号 (,)、行分隔符(\r、\n 或 \r\n)和转义字符反斜杠 ()。
数据集的“预览数据”似乎工作正常并输出一个包含 2 行的表。这也是我期望的输出,因为数据的整体结构被保留。

但是,当我尝试在映射数据流中使用此数据集并选择“数据预览”(直接在源节点中)时,我得到以下输出:

即使整个值位于双引号之间,也不会忽略换行符。数据的整体结构现在被破坏,一行被分成两行。
当我将某些单元格中带有换行符的 Excel 文件另存为 CSV 时,我会得到此类数据。我应该如何解决这个问题?我应该以不同的方式保存 Excel,我应该在保存为 CSV 之前尝试删除所有换行符,还是有办法让数据工厂解决这个问题?另外,为什么数据集中的预览数据功能似乎工作正常,而映射数据流中的数据预览功能却不能正常工作?
我在 ADF 中创建一个管道来执行复制活动。我的源数据库是 Azure SQL 数据库,接收器是 Azure Blob。我想在 ADF 中执行 SQL 查询,以便在将数据复制到 Blob 后从源中删除数据。我不允许使用复制或查找来执行查询。他们是否有任何自定义方式来执行此操作。我需要创建一个视图并且必须执行一些活动。请帮助
sql-server cloud azure azure-data-factory azure-sql-database
我设置了一个 DataFactory 管道,用于获取 Azure Data Lake Storage Gen2 中的文件列表,然后使用 ForEach 循环迭代每个文件。
我使用“获取元数据”活动来生成文件列表,其输出的参数是“子项目”。
我想确保列表(子项目)始终按名称顺序排序。我的问题是子项目的默认排序方法是什么,或者我可以手动排序吗?
谢谢
"name": "GetMetadata",
"description": "",
"type": "GetMetadata",
"dependsOn": [
{
"activity": "Execute Previous Activity",
"dependencyConditions": [
"Succeeded"
]
}
],
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"userProperties": [],
"typeProperties": {
"dataset": {
"referenceName": "Folder",
"type": "DatasetReference"
},
"fieldList": [
"childItems"
]
}
},
Run Code Online (Sandbox Code Playgroud) 这似乎非常基本,但我无法找到合适的管道表达式函数来实现此目的。
我设置了一个具有以下值的数组变量 VAR1,它是 ADF 管道中 SQL 查找活动的输出:
[
{
"Code1": "1312312"
},
{
"Code1": "3524355"
}
]
Run Code Online (Sandbox Code Playgroud)
现在,我需要将其转换为逗号分隔的字符串,以便我可以将其传递给下一个活动中的 SQL 查询 - 类似于:
"'1312312','3524355'"
我无法找到表达式函数来迭代数组元素,也无法将数组转换为字符串。我看到的唯一管道表达式函数是将字符串转换为数组,而不是相反。
我错过了一些基本的东西吗?如何才能实现这一目标?
我需要使用 Azure 数据流表达式生成器生成 SQL 字符串,但它不允许我使用 Concat 函数在字符串之间添加单引号
我需要一个如下的 SQL 字符串
SELECT * FROM ABC WHERE myDate <= '2019-10-10'
Run Code Online (Sandbox Code Playgroud)
这里 2019-10-10 来自参数,所以我构建的表达式如下
concat('SELECT * FROM ABC WHERE myDate >=','''',$ToDate,'''')
Run Code Online (Sandbox Code Playgroud)
但上面的语句无法解析表达式。
结果将作为 SQL 查询执行。SQL 查询不允许使用双引号。它必须是单引号。
使用数据工厂表达式可以轻松实现这一点,但使用天蓝色数据流表达式则无法实现。
sql expression quote google-cloud-dataflow azure-data-factory
azure ×7
apache-beam ×1
cloud ×1
csv ×1
databricks ×1
expression ×1
hana ×1
quote ×1
sql ×1
sql-server ×1
unit-testing ×1