Rya*_*zon 6 c# azure azure-data-lake databricks azure-databricks
我目前正在开发一个项目,我们将数据存储在 Azure Datalake 上。Datalake 连接到 Azure Databricks。
该要求要求 Azure Databricks 连接到 C# 应用程序,以便能够运行查询并从 C# 应用程序获取所有结果。我们目前解决该问题的方法是在 Databricks 上创建一个工作区,其中包含许多需要执行的查询。我们创建了一个链接到上述工作区的作业。从 C# 应用程序中,我们调用本文档中列出的许多 API来调用作业实例并等待其执行。但是,我无法从文档中列出的任何 API 中提取结果。
我的问题是,我们采取了正确的方法还是有什么我们没有看到的?如果这是可行的方法,那么您在从 C# 应用程序在 Azure Databricks 上成功运行的作业中提取结果方面有何经验。
Microsoft 有一个很好的架构参考解决方案,也可以帮助您获得更多见解。
我不确定使用 REST API 是从 Azure DataBricks 获取作业输出的最佳方式。
首先,REST API对每个数据块实例有速率限制。每秒 30 个请求并不是那么糟糕,但它在很大程度上取决于应用程序的规模以及 databrick 实例的其他用途(如果这足够的话)。这对于创建作业来说应该足够了,但如果您想轮询作业状态以了解完成情况,这可能还不够。
通过 REST API 传输数据的能力也有限。例如:根据文档,输出 api 将仅返回运行输出的前 5MB。如果您想要更大的结果,则必须先将其存储在其他位置,然后再从 C# 应用程序获取它。
替代检索方法
简而言之:将 Azure PaaS 与 blobstorage 和 eventgrid 结合使用,发挥您的优势。
这绝不是一个详尽的解决方案,我确信有人可以想出更好的解决方案,但是这在类似的用例中对我有用。
您可以做的是将作业运行的结果写入连接到 databrick 的某种形式的云存储,然后稍后从该存储位置获取结果。本教程中有一个步骤展示了使用SQL 数据仓库存储作业结果的基本概念,但您可以使用您喜欢的任何存储,例如Blob 存储
假设您将结果存储在 blobstorage 中。每次将新作业输出写入 blob 时,您都可以引发一个事件。您可以通过Azure Eventgrid订阅这些事件并在应用程序中使用它们。有一个 .net SDK可以让您做到这一点。该事件将包含一个 blob uri,您可以使用它来将数据获取到您的应用程序中。
从文档来看,blobcreated 事件将如下所示:
[{
"topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
"subject": "/blobServices/default/containers/test-container/blobs/new-file.txt",
"eventType": "Microsoft.Storage.BlobCreated",
"eventTime": "2017-06-26T18:41:00.9584103Z",
"id": "831e1650-001e-001b-66ab-eeb76e069631",
"data": {
"api": "PutBlockList",
"clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
"requestId": "831e1650-001e-001b-66ab-eeb76e000000",
"eTag": "\"0x8D4BCC2E4835CD0\"",
"contentType": "text/plain",
"contentLength": 524288,
"blobType": "BlockBlob",
"url": "https://my-storage-account.blob.core.windows.net/testcontainer/new-file.txt",
"sequencer": "00000000000004420000000000028963",
"storageDiagnostics": {
"batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
}
},
"dataVersion": "",
"metadataVersion": "1"
}]
Run Code Online (Sandbox Code Playgroud)
使用作业 Id 和运行 Id 等所需信息来命名 Blob 非常重要。您还可以创建自定义事件,这会增加解决方案的复杂性,但允许您向事件添加更多详细信息。
在应用程序中拥有Blob 创建的事件数据后,您可以使用存储 SDK 获取 Blob 数据以在应用程序中使用。根据您的应用程序逻辑,您还必须管理作业 ID 并在应用程序中运行 ID,否则您将面临存储中作业输出不再附加到应用程序中的进程的风险。
| 归档时间: |
|
| 查看次数: |
11360 次 |
| 最近记录: |