我坚持用.net 4.6.1创建azure批处理池.
我经历了那些非常好的资源:
我发现有一种方法可以使用.net 4.6.1 而无需在节点上手动安装它.有一种编程方式可以使用最新的.net版本(.net 4.6.1)设置Windows Ghost映像,但我的节点是事先定义的.
我需要.net 4.6.1,因为我们使用Data Factory和在azure批处理节点上运行的自定义活动.我们在该节点上手动升级了.net版本,但Microsoft不保证该状态将保留,我们注意到该节点已重置为其原始状态几次.
我的问题是:
你知道在天蓝门户上有没有办法选择安装了.net 4.6.1版本的OS系列的OS系列?
有没有人知道什么时候会有.net 4.6.1的操作系统?
或者我应该使用StartTask功能并尝试手动安装.net 4.6.1?但是,该选项听起来像是一些解决方法,而不是正确的解决方案.
从上周开始,我在Azure数据工厂(v2)中运行的SSIS包逐个失败。他们没有改变。所有软件包都因相同的一系列错误而失败,如下所示。
这些程序包可以在Visual Studio中完美运行,但是当我将它们部署到Data Factory时,我收到了这些消息。
关于如何看待有什么想法?
我试图重新编译脚本组件,以重新部署整个项目。我还尝试将C#代码复制到新组件中,不幸的是导致了同样的问题。
我正在看下面的链接。
我们应该能够在文件夹路径和文件名中使用通配符。如果我们单击“活动”并单击“源”,我们会看到此视图。
我想在任何一天循环几个月,所以它应该是这样的视图。
当然这实际上行不通。我收到如下错误:ErrorCode: 'PathNotFound'。消息:'指定的路径不存在。'。给定文件路径和文件名中的特定字符串模式,如何让该工具递归遍历所有文件夹中的所有文件?谢谢。
我的数据工厂 (v2) 管道需要调用驻留在部署到 Azure 的虚拟网络中的 REST 服务。这是一个专用网络,不面向公众。
似乎有 2 个选项:
但是,当我尝试从 Web Hook 调用我的 URL 时,它会失败并显示错误请求且没有其他详细信息。
我强烈怀疑这与从数据工厂访问专用网络有关,尽管我无法确定这一点。该请求肯定不会到达我的 REST 服务,因此 403 不是来自那里。
因此,我有2个问题:
我有一个大小为 32GB 的 zip 文件。我需要将其导入数据湖存储服务帐户。我正在尝试解压缩文件并通过 Azure 数据工厂移动该文件。
Zip 文件上传到 Azure Blob 存储。但是我看不到 ZIP 扩展名作为源数据格式。
我在 adls gen2 中有一个文件夹,将其称为 mysource1 文件夹..其中有 100 个子文件夹,每个子文件夹又包含文件夹和许多文件..
如何使用 azure 数据工厂复制 mysource1 中的所有文件夹和文件..
这是我的情况
我有 Azure 表作为源,我的目标是 Azure SQL 数据库。源表看起来像这样:
| ID | 文件名 | 元数据 |
|---|---|---|
| 1 | 文件_1.txt | {“公司”:{“id”:555,“名称”:“A公司”},“质量”:[{“质量”:3,“文件名”:“file_1.txt”},{“质量”: 4、“file_name”:“未知”}]} |
| 2 | 文件_2.txt | {"公司": { "id": 231, "姓名": "公司B" }, "质量": [{"质量": 4, "文件名": "file_2.txt"}, {"质量": 3、“file_name”:“未知”}]} |
| 3 | 文件_3.txt | {“公司”:{“id”:111,“名称”:“C公司”},“质量”:[{“质量”:5,“文件名”:“未知”},{“质量”:4, "file_name": "file_3.txt"}]} |
目标表应该如下所示:
| ID | 文件名 | 公司 | 质量 |
|---|---|---|---|
| 1 | 文件_1.txt | A公司 | 3 |
| 2 | 文件_2.txt | B公司 | 4 |
| 3 | 文件_3.txt | C公司 | 4 |
这意味着我需要解析该字符串中的数据以获取新的列值,并根据源中的 file_name 列使用质量值。
我做的第一件事是创建一个复制管道,将数据从 Azure 表 1 对 1 传输到 Azure Data Lake Store 上的 parquet 文件,以便我可以将其用作数据流中的源。接下来,想法是使用派生列并使用一些表达式来获取数据,但据我所知,没有表达式将此字符串视为 JSON 对象。
因此,下一个想法可能是在此过程之前添加一个步骤,我将元数据列的内容提取到 ADLS 上的单独文件中,并使用该文件作为源或查找,并将其定义为 JSON 文件。这意味着我需要将 id 值添加到 JSON 文件,以便我能够将数据绑定回记录。 …
Azure 数据工厂数据流源中的两种源类型“数据集”和“内联”之间有什么区别?在什么情况下我应该使用其中一种而不是另一种?
我已经阅读了微软的官方文档,但我无法弄清楚:
当一种格式同时支持内联和数据集对象时,两者都有好处。数据集对象是可重用的实体,可用于其他数据流和活动(例如复制)。当您使用强化模式时,这些可重用实体特别有用。数据集不基于 Spark。有时,您可能需要覆盖源转换中的某些设置或架构投影。
当您使用灵活的模式、一次性源实例或参数化源时,建议使用内联数据集。如果您的源高度参数化,则内联数据集允许您不创建“虚拟”对象。内联数据集基于 Spark,其属性是数据流固有的。
尝试自学一些 ETL 技能,并需要一些帮助来了解完成某些任务的最佳方法。我正在尝试将我们的客户服务平台 Freshdesk 中的数据引入我们的 SQL 数据仓库。我们是一家微软公司,我使用 Microsoft Azure 数据工厂和 Microsoft 逻辑应用程序完成了一些类似的任务。逻辑应用程序代码量低/无代码,而且更直观,所以我现在尝试使用它。然而,我觉得数据工厂可能是最有效的方法(尽管目前还不能 100% 确定如何做到这一点)。任何帮助或正确方向的指出都值得赞赏。
我在 ADF 中有一个复制任务,该任务将数据从 REST API 提取到 Azure SQL 数据库中。我已经创建了映射,并拉入了集合引用,如下所示:
您会注意到运行复制任务时它仅输出 1 行(第一行)。我知道这通常是因为您正在从嵌套的 JSON 数组中提取数据,其中集合引用应该解决此问题以从数组中提取数据 - 但我一生都无法让它提取多条记录,即使在设置集合之后也是如此。