标签: azure-data-lake

U-SQL无法从JSON文件中提取数据

我试图使用USQL从JSON文件中提取数据.查询成功运行而不生成任何输出数据或导致"顶点失败快速错误".

JSON文件如下所示:

{
  "results": [
    {
      "name": "Sales/Account",
      "id": "7367e3f2-e1a5-11e5-80e8-0933ecd4cd8c",
      "deviceName": "HP",
      "deviceModel": "g6-pavilion",
      "clientip": "0.41.4.1"
    },
    {
      "name": "Sales/Account",
      "id": "c01efba0-e0d5-11e5-ae20-af6dc1f2c036",
      "deviceName": "acer",
      "deviceModel": "veriton",
      "clientip": "10.10.14.36"
    }
  ]
}

Run Code Online (Sandbox Code Playgroud)

我的U-SQL脚本是

REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];

DECLARE @in string="adl://xyz.azuredatalakestore.net/todelete.json";

DECLARE @out string="adl://xyz.azuredatalakestore.net/todelete.tsv";

@trail2=EXTRACT results string FROM @in USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();

@jsonify=SELECT Microsoft.Analytics.Samples.Formats.Json.JsonFunctions.JsonTuple(results,"name","id","deviceName","deviceModel","clientip") AS rec FROM @trail2;

@logSchema=SELECT rec["name"] AS sysName,
              rec["id"] AS sysId,
              rec["deviceName"] AS domainDeviceName,
              rec["deviceModel"] AS domainDeviceModel,
              rec["clientip"] AS domainClientIp 
       FROM @jsonify;

OUTPUT @logSchema TO @out …

Run Code Online (Sandbox Code Playgroud)

azure-data-factory azure-data-lake u-sql

Sar*_*uri

2017 11-09

6
推荐指数

1
解决办法

3797
查看次数

移动而不是复制 Azure 数据工厂中的数据

我想设置一个 Azure 数据工厂管道，它执行移动（即复制、验证、删除）操作，而不仅仅是 Blob 存储和数据湖存储之间的复制操作。我似乎无法找到有关如何执行此操作的任何详细信息。

azure azure-data-factory azure-data-lake

Sam*_*Sam

lucky-day

6
推荐指数

1
解决办法

9793
查看次数

Azure Data Lake中的U-SQL输出

如果我不知道表中包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件？是否可以将键值放入文件名中？

azure data-partitioning output azure-data-lake u-sql

pet*_*rko

2017 10-16

6
推荐指数

2
解决办法

3300
查看次数

如何查询Azure Data Lake？

来自数据库世界，当我们有一些与数据相关的东西时，我们使用一个ui工具来查询数据。无论大小。

是否有适用于Azure Data Lake的SSMS，SQL WorkBench（用于大数据Redshift），Athena（查询大数据S3）？

我看到Data Lake Analytics只是查询数据并将其存储在文件中。无论如何，是否有通过UI工具或基于Web的工具查询Azure Data Lake上的数据？

azure azure-data-lake

Kan*_*yan

2017 11-20

6
推荐指数

1
解决办法

2933
查看次数

Azure 数据湖分析与 Azure SQL 数据仓库

我正在使用 ADF 连接到源并将数据获取到 Azure Data Lake 存储中。将数据放入 Data Lake Store 后，我想做一些转换、聚合，并在 SSRS 报告中使用该数据以及创建多维数据集。

谁能建议我哪个是最佳选择（Azure Data Lake Analytics 或 Azure SQL DW）？

我正在寻找在数据湖之后采取哪一个的决定。

azure azure-sql-database azure-data-lake

Nag*_*aga

2018 04-10

6
推荐指数

1
解决办法

3929
查看次数

为 Azure 存储访问配置独立 Spark

我需要能够在我的本地机器上运行 spark 来访问 azure wasb 和 adl url，但我无法让它工作。我在这里有一个精简的例子：

maven pom.xml（全新的pom，只设置了依赖）：

<dependencies>
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.3.0</version>
</dependency>
  <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.3.0</version>
  </dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>2.8.0</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-azure-datalake</artifactId>
  <version>3.1.0</version>
</dependency>
<dependency>
  <groupId>com.microsoft.azure</groupId>
  <artifactId>azure-storage</artifactId>
  <version>6.0.0</version>
</dependency>
<dependency>
  <groupId>com.microsoft.azure</groupId>
  <artifactId>azure-data-lake-store-sdk</artifactId>
  <version>2.2.3</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-azure</artifactId>
  <version>3.1.0</version>
</dependency>
<dependency>
  <groupId>com.microsoft.azure</groupId>
  <artifactId>azure-storage</artifactId>
  <version>7.0.0</version>
</dependency>

Run Code Online (Sandbox Code Playgroud)

Java 代码（不需要是 java - 可以是 scala）：

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.SparkSession;

public class App {
    public static void main(String[] args) {
        SparkConf config = new SparkConf();
        config.setMaster("local");
        config.setAppName("app"); …

Run Code Online (Sandbox Code Playgroud)

azure azure-storage-blobs apache-spark azure-data-lake

abs*_*ths

lucky-day

6
推荐指数

2
解决办法

4019
查看次数

如何在 Microsoft Integration Runtime 配置管理器中更改数据工厂？

我已经安装了 Microsoft Integration Runtime 配置管理器当我将数据从本地 SQL Server 迁移到 Azure Data Lake 以及当我尝试将其用于另一个 Azure 数据工厂时，我找不到为数据添加新密钥的空间工厂。怎么做。提前致谢

azure azure-data-lake azure-data-factory-2 azure-sql-data-warehouse

Sar*_*j K

2019 07-03

6
推荐指数

2
解决办法

6312
查看次数

Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式

我正在将事实表和维度表从 SQL Server 导入到 Azure Data Lake Gen 2。

如果我要整理表格以创建对在 Azure Databricks 上运行 ML 模型有用的数据集，我应该将数据保存为“Parquet”还是“Delta”？

存储为 parquet 和 delta 有什么区别？

apache-spark apache-spark-sql azure-data-lake azure-databricks azure-data-lake-gen2

lea*_*ner

2020 12-16

6
推荐指数

3
解决办法

6388
查看次数

确保在 Azure Data Lake Store 帐户中正确配置了 ACL 和防火墙规则

我正在使用复制数据工具使用 Azure 数据工厂将 CSV 文件从 Azure blob 处理到 Azure Data Lake。我正在关注此链接：https : //docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-copy-data-tool

Fron Copy 数据工具我的源配置和测试连接成功。但是，目标连接（即数据湖）正在产生问题。

我收到错误消息：确保在 Azure Data Lake Store 帐户中正确配置了 ACL 和防火墙规则。

我按照此链接进行 Fairwall 设置：https ://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-secure-data （设置数据访问的 IP 地址范围）

启用公平墙并允许访问 Azure 服务“ON”

尽管如此，我还是遇到了同样的错误。任何人都可以请建议。如何解决这个问题？

azure azure-data-factory azure-data-lake

Ask*_*kMe

lucky-day

5
推荐指数

2
解决办法

5607
查看次数

Databricks 仅打印大约 280 行数据

我正在 Databricks 中运行一些大型作业，目前包括清点数据湖。我正在尝试打印前缀（子文件夹）内的所有 blob 名称。这些子文件夹中有很多文件，我打印了大约 280 行文件名，但后来我看到了：*** WARNING: skipped 494256 bytes of output *** 然后，我又打印了 280 行。

我猜有一个控件可以改变这一点，对吧。我当然希望如此。这旨在处理大数据，而不是 ~280 条记录。我知道庞大的数据集很容易使浏览器崩溃，但很常见，这基本上没什么。

python python-3.x azure-data-lake databricks

ASH*_*ASH

lucky-day

5
推荐指数

2
解决办法

3388
查看次数