小编Mor*_*rly的帖子

Spark 可以写入 Azure Datalake Gen2 吗?

除非您使用 Databricks,否则似乎不可能使用 Spark 写入 Azure Datalake Gen2。

我正在使用jupyterwithalmond在本地笔记本中运行 Spark。

我已经导入了hadoop依赖项:

import $ivy.`org.apache.hadoop:hadoop-azure:2.7.7`
import $ivy.`com.microsoft.azure:azure-storage:8.4.0` 
Run Code Online (Sandbox Code Playgroud)

wasbs://这允许我在尝试将数据帧写入天蓝色时使用该协议

    spark.conf.set(
        "fs.azure.sas.[container].prodeumipsadatadump.blob.core.windows.net", 
        "?sv=2018-03-28&ss=b&srt=sco&sp=rwdlac&se=2019-09-09T23:33:45Z&st=2019-09-09T15:33:45Z&spr=https&sig=[truncated]")
Run Code Online (Sandbox Code Playgroud)

这就是错误出现的地方:

val data = spark.read.json(spark.createDataset(
  """{"name":"Yin", "age": 25.35,"address":{"city":"Columbus","state":"Ohio"}}""" :: Nil))

data
  .write
  .orc("wasbs://[filesystem]@[datalakegen2storageaccount].blob.core.windows.net/lalalalala")
Run Code Online (Sandbox Code Playgroud)

现在,我们遇到了“分层命名空间帐户尚不支持 Blob API”错误:

org.apache.hadoop.fs.azure.AzureException: com.microsoft.azure.storage.StorageException: Blob API is not yet supported for hierarchical namespace accounts.
Run Code Online (Sandbox Code Playgroud)

那么这确实不可能吗?我是否应该放弃 Datalake gen2 并仅使用常规 blob 存储?微软在创建“数据湖”产品方面确实失败了,但没有为带有 Spark 的连接器创建任何文档。

azure azure-storage apache-spark azure-data-lake

2
推荐指数
1
解决办法
5237
查看次数