标签: azure-data-factory

如何在azure批处理的计算节点上安装.net 4.6.1

我坚持用.net 4.6.1创建azure批处理池.

我经历了那些非常好的资源:

我发现有一种方法可以使用.net 4.6.1 而无需在节点上手动安装它.有一种编程方式可以使用最新的.net版本(.net 4.6.1)设置Windows Ghost映像,但我的节点是事先定义的.

在此输入图像描述

我需要.net 4.6.1,因为我们使用Data Factory和在azure批处理节点上运行的自定义活动.我们在该节点上手动升级了.net版本,但Microsoft不保证该状态将保留,我们注意到该节点已重置为其原始状态几次.

我的问题是:

  • 你知道在天蓝门户上有没有办法选择安装了.net 4.6.1版本的OS系列的OS系列?

  • 有没有人知道什么时候会有.net 4.6.1的操作系统?

  • 或者我应该使用StartTask功能并尝试手动安装.net 4.6.1?但是,该选项听起来像是一些解决方法,而不是正确的解决方案.

azure azure-data-factory azureportal azure-batch

5
推荐指数
1
解决办法
969
查看次数

SSIS包执行失败(数据工厂)-脚本组件未加载代码

从上周开始,我在Azure数据工厂(v2)中运行的SSIS包逐个失败。他们没有改变。所有软件包都因相同的一系列错误而失败,如下所示。

这些程序包可以在Visual Studio中完美运行,但是当我将它们部署到Data Factory时,我收到了这些消息。

关于如何看待有什么想法?

我试图重新编译脚本组件,以重新部署整个项目。我还尝试将C#代码复制到新组件中,不幸的是导致了同样的问题。

失误

ssis factory azure azure-data-factory

5
推荐指数
1
解决办法
319
查看次数

如何让 Azure 数据工厂循环访问文件夹中的文件

我正在看下面的链接。

https://azure.microsoft.com/en-us/updates/data-factory-supports-wildcard-file-filter-for-copy-activity/

我们应该能够在文件夹路径和文件名中使用通配符。如果我们单击“活动”并单击“源”,我们会看到此视图。

我想在任何一天循环几个月,所以它应该是这样的视图。

在此处输入图片说明

当然这实际上行不通。我收到如下错误:ErrorCode: 'PathNotFound'。消息:'指定的路径不存在。'。给定文件路径和文件名中的特定字符串模式,如何让该工具递归遍历所有文件夹中的所有文件?谢谢。

azure azure-data-factory

4
推荐指数
1
解决办法
1万
查看次数

Azure 数据工厂:访问驻留在虚拟网络中的 Web 服务

我的数据工厂 (v2) 管道需要调用驻留在部署到 Azure 的虚拟网络中的 REST 服务。这是一个专用网络,不面向公众。

似乎有 2 个选项:

  1. Web Activity:文档提到它仅适用于公共 URL
  2. Web Hook:文档没有提到任何此类限制,因此推测它确实支持私有访问(?)

但是,当我尝试从 Web Hook 调用我的 URL 时,它会失败并显示错误请求且没有其他详细信息。

我强烈怀疑这与从数据工厂访问专用网络有关,尽管我无法确定这一点。该请求肯定不会到达我的 REST 服务,因此 403 不是来自那里。

因此,我有2个问题:

  1. 数据工厂 Web Hooks 是否可以访问私有虚拟网络
  2. 有什么方法可以更多地记录 Web Hook 正在执行的操作吗?

azure azure-data-factory

4
推荐指数
1
解决办法
1267
查看次数

在 Azure 数据工厂中解压缩

我有一个大小为 32GB 的 zip 文件。我需要将其导入数据湖存储服务帐户。我正在尝试解压缩文件并通过 Azure 数据工厂移动该文件。

Zip 文件上传到 Azure Blob 存储。但是我看不到 ZIP 扩展名作为源数据格式。

是否可以通过数据工厂进行解压操作AZ数据工厂

zip azure azure-data-factory azure-data-lake

4
推荐指数
1
解决办法
2705
查看次数

如何使用azure数据工厂复制特定目录中的所有文件和文件夹

我在 adls gen2 中有一个文件夹,将其称为 mysource1 文件夹..其中有 100 个子文件夹,每个子文件夹又包含文件夹和许多文件..

如何使用 azure 数据工厂复制 mysource1 中的所有文件夹和文件..

azure azure-data-factory azure-data-lake

4
推荐指数
1
解决办法
1万
查看次数

使用 Azure 数据工厂解析列中的 JSON 字符串

这是我的情况

我有 Azure 表作为源,我的目标是 Azure SQL 数据库。源表看起来像这样:

ID 文件名 元数据
1 文件_1.txt {“公司”:{“id”:555,“名称”:“A公司”},“质量”:[{“质量”:3,“文件名”:“file_1.txt”},{“质量”: 4、“file_name”:“未知”}]}
2 文件_2.txt {"公司": { "id": 231, "姓名": "公司B" }, "质量": [{"质量": 4, "文件名": "file_2.txt"}, {"质量": 3、“file_name”:“未知”}]}
3 文件_3.txt {“公司”:{“id”:111,“名称”:“C公司”},“质量”:[{“质量”:5,“文件名”:“未知”},{“质量”:4, "file_name": "file_3.txt"}]}

目标表应该如下所示:

ID 文件名 公司 质量
1 文件_1.txt A公司 3
2 文件_2.txt B公司 4
3 文件_3.txt C公司 4

这意味着我需要解析该字符串中的数据以获取新的列值,并根据源中的 file_name 列使用质量值。

我做的第一件事是创建一个复制管道,将数据从 Azure 表 1 对 1 传输到 Azure Data Lake Store 上的 parquet 文件,以便我可以将其用作数据流中的源。接下来,想法是使用派生列并使用一些表达式来获取数据,但据我所知,没有表达式将此字符串视为 JSON 对象。

因此,下一个想法可能是在此过程之前添加一个步骤,我将元数据列的内容提取到 ADLS 上的单独文件中,并使用该文件作为源或查找,并将其定义为 JSON 文件。这意味着我需要将 id 值添加到 JSON 文件,以便我能够将数据绑定回记录。 …

json azure azure-data-factory

4
推荐指数
1
解决办法
1万
查看次数

Azure 数据工厂数据流中的“数据集”和“内联”源之间的区别?

Azure 数据工厂数据流源中的两种源类型“数据集”和“内联”之间有什么区别?在什么情况下我应该使用其中一种而不是另一种?

我已经阅读了微软的官方文档,但我无法弄清楚:

当一种格式同时支持内联和数据集对象时,两者都有好处。数据集对象是可重用的实体,可用于其他数据流和活动(例如复制)。当您使用强化模式时,这些可重用实体特别有用。数据集不基于 Spark。有时,您可能需要覆盖源转换中的某些设置或架构投影。

当您使用灵活的模式、一次性源实例或参数化源时,建议使用内联数据集。如果您的源高度参数化,则内联数据集允许您不创建“虚拟”对象。内联数据集基于 Spark,其属性是数据流固有的。

azure bigdata azure-data-factory azure-pipelines

4
推荐指数
1
解决办法
9392
查看次数

Azure 数据工厂与 Azure 逻辑应用

尝试自学一些 ETL 技能,并需要一些帮助来了解完成某些任务的最佳方法。我正在尝试将我们的客户服务平台 Freshdesk 中的数据引入我们的 SQL 数据仓库。我们是一家微软公司,我使用 Microsoft Azure 数据工厂和 Microsoft 逻辑应用程序完成了一些类似的任务。逻辑应用程序代码量低/无代码,而且更直观,所以我现在尝试使用它。然而,我觉得数据工厂可能是最有效的方法(尽管目前还不能 100% 确定如何做到这一点)。任何帮助或正确方向的指出都值得赞赏。

data-warehouse azure azure-logic-apps azure-data-factory

4
推荐指数
1
解决办法
8044
查看次数

Azure 数据工厂 - 使用 Rest API 的复制任务在执行时仅返回第一行

我在 ADF 中有一个复制任务,该任务将数据从 REST API 提取到 Azure SQL 数据库中。我已经创建了映射,并拉入了集合引用,如下所示:

json数据预览

来源

下沉

映射

输出

您会注意到运行复制任务时它仅输出 1 行(第一行)。我知道这通常是因为您正在从嵌套的 JSON 数组中提取数据,其中集合引用应该解决此问题以从数组中提取数据 - 但我一生都无法让它提取多条记录,即使在设置集合之后也是如此。

json azure azure-data-factory

4
推荐指数
1
解决办法
5694
查看次数