标签: azure-data-factory

ID	文件名	元数据
1	文件_1.txt	{“公司”：{“id”：555，“名称”：“A公司”}，“质量”：[{“质量”：3，“文件名”：“file_1.txt”}，{“质量”： 4、“file_name”：“未知”}]}
2	文件_2.txt	{"公司": { "id": 231, "姓名": "公司B" }, "质量": [{"质量": 4, "文件名": "file_2.txt"}, {"质量": 3、“file_name”：“未知”}]}
3	文件_3.txt	{“公司”：{“id”：111，“名称”：“C公司”}，“质量”：[{“质量”：5，“文件名”：“未知”}，{“质量”：4， "file_name": "file_3.txt"}]}

目标表应该如下所示：

ID	文件名	公司	质量
1	文件_1.txt	A公司	3
2	文件_2.txt	B公司	4
3	文件_3.txt	C公司	4

这意味着我需要解析该字符串中的数据以获取新的列值，并根据源中的 file_name 列使用质量值。

我做的第一件事是创建一个复制管道，将数据从 Azure 表 1 对 1 传输到 Azure Data Lake Store 上的 parquet 文件，以便我可以将其用作数据流中的源。接下来，想法是使用派生列并使用一些表达式来获取数据，但据我所知，没有表达式将此字符串视为 JSON 对象。

因此，下一个想法可能是在此过程之前添加一个步骤，我将元数据列的内容提取到 ADLS 上的单独文件中，并使用该文件作为源或查找，并将其定义为 JSON 文件。这意味着我需要将 id 值添加到 JSON 文件，以便我能够将数据绑定回记录。 …

json azure azure-data-factory

qui*_*are

2021 03-02

4
推荐指数

1
解决办法

1万
查看次数

Azure 数据工厂数据流中的“数据集”和“内联”源之间的区别？

Azure 数据工厂数据流源中的两种源类型“数据集”和“内联”之间有什么区别？在什么情况下我应该使用其中一种而不是另一种？

我已经阅读了微软的官方文档，但我无法弄清楚：

当一种格式同时支持内联和数据集对象时，两者都有好处。数据集对象是可重用的实体，可用于其他数据流和活动（例如复制）。当您使用强化模式时，这些可重用实体特别有用。数据集不基于 Spark。有时，您可能需要覆盖源转换中的某些设置或架构投影。

当您使用灵活的模式、一次性源实例或参数化源时，建议使用内联数据集。如果您的源高度参数化，则内联数据集允许您不创建“虚拟”对象。内联数据集基于 Spark，其属性是数据流固有的。

azure bigdata azure-data-factory azure-pipelines

La-*_*a-D

2021 07-09

4
推荐指数

1
解决办法

9392
查看次数

尝试自学一些 ETL 技能，并需要一些帮助来了解完成某些任务的最佳方法。我正在尝试将我们的客户服务平台 Freshdesk 中的数据引入我们的 SQL 数据仓库。我们是一家微软公司，我使用 Microsoft Azure 数据工厂和 Microsoft 逻辑应用程序完成了一些类似的任务。逻辑应用程序代码量低/无代码，而且更直观，所以我现在尝试使用它。然而，我觉得数据工厂可能是最有效的方法（尽管目前还不能 100% 确定如何做到这一点）。任何帮助或正确方向的指出都值得赞赏。

data-warehouse azure azure-logic-apps azure-data-factory

Zac*_*oss

lucky-day

4
推荐指数

1
解决办法

8044
查看次数