标签: azure-data-lake

U-SQL无法从JSON文件中提取数据

我试图使用USQL从JSON文件中提取数据.查询成功运行而不生成任何输出数据或导致"顶点失败快速错误".

JSON文件如下所示:

{
  "results": [
    {
      "name": "Sales/Account",
      "id": "7367e3f2-e1a5-11e5-80e8-0933ecd4cd8c",
      "deviceName": "HP",
      "deviceModel": "g6-pavilion",
      "clientip": "0.41.4.1"
    },
    {
      "name": "Sales/Account",
      "id": "c01efba0-e0d5-11e5-ae20-af6dc1f2c036",
      "deviceName": "acer",
      "deviceModel": "veriton",
      "clientip": "10.10.14.36"
    }
  ]
}
Run Code Online (Sandbox Code Playgroud)

我的U-SQL脚本是

REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];

DECLARE @in string="adl://xyz.azuredatalakestore.net/todelete.json";

DECLARE @out string="adl://xyz.azuredatalakestore.net/todelete.tsv";

@trail2=EXTRACT results string FROM @in USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();

@jsonify=SELECT Microsoft.Analytics.Samples.Formats.Json.JsonFunctions.JsonTuple(results,"name","id","deviceName","deviceModel","clientip") AS rec FROM @trail2;

@logSchema=SELECT rec["name"] AS sysName,
              rec["id"] AS sysId,
              rec["deviceName"] AS domainDeviceName,
              rec["deviceModel"] AS domainDeviceModel,
              rec["clientip"] AS domainClientIp 
       FROM @jsonify;

OUTPUT @logSchema TO @out …
Run Code Online (Sandbox Code Playgroud)

azure-data-factory azure-data-lake u-sql

6
推荐指数
1
解决办法
3797
查看次数

移动而不是复制 Azure 数据工厂中的数据

我想设置一个 Azure 数据工厂管道,它执行移动(即复制、验证、删除)操作,而不仅仅是 Blob 存储和数据湖存储之间的复制操作。我似乎无法找到有关如何执行此操作的任何详细信息。

azure azure-data-factory azure-data-lake

6
推荐指数
1
解决办法
9793
查看次数

Azure Data Lake中的U-SQL输出

如果我不知道表中包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中?

azure data-partitioning output azure-data-lake u-sql

6
推荐指数
2
解决办法
3300
查看次数

如何查询Azure Data Lake?

来自数据库世界,当我们有一些与数据相关的东西时,我们使用一个ui工具来查询数据。无论大小。

是否有适用于Azure Data Lake的SSMS,SQL WorkBench(用于大数据Redshift),Athena(查询大数据S3)?

我看到Data Lake Analytics只是查询数据并将其存储在文件中。无论如何,是否有通过UI工具或基于Web的工具查询Azure Data Lake上的数据?

azure azure-data-lake

6
推荐指数
1
解决办法
2933
查看次数

Azure 数据湖分析与 Azure SQL 数据仓库

我正在使用 ADF 连接到源并将数据获取到 Azure Data Lake 存储中。将数据放入 Data Lake Store 后,我想做一些转换、聚合,并在 SSRS 报告中使用该数据以及创建多维数据集。

谁能建议我哪个是最佳选择(Azure Data Lake Analytics 或 Azure SQL DW)?

我正在寻找在数据湖之后采取哪一个的决定。

azure azure-sql-database azure-data-lake

6
推荐指数
1
解决办法
3929
查看次数

为 Azure 存储访问配置独立 Spark

我需要能够在我的本地机器上运行 spark 来访问 azure wasb 和 adl url,但我无法让它工作。我在这里有一个精简的例子:

maven pom.xml(全新的pom,只设置了依赖):

<dependencies>
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.3.0</version>
</dependency>
  <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.3.0</version>
  </dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>2.8.0</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-azure-datalake</artifactId>
  <version>3.1.0</version>
</dependency>
<dependency>
  <groupId>com.microsoft.azure</groupId>
  <artifactId>azure-storage</artifactId>
  <version>6.0.0</version>
</dependency>
<dependency>
  <groupId>com.microsoft.azure</groupId>
  <artifactId>azure-data-lake-store-sdk</artifactId>
  <version>2.2.3</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-azure</artifactId>
  <version>3.1.0</version>
</dependency>
<dependency>
  <groupId>com.microsoft.azure</groupId>
  <artifactId>azure-storage</artifactId>
  <version>7.0.0</version>
</dependency>
Run Code Online (Sandbox Code Playgroud)

Java 代码(不需要是 java - 可以是 scala):

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.SparkSession;

public class App {
    public static void main(String[] args) {
        SparkConf config = new SparkConf();
        config.setMaster("local");
        config.setAppName("app"); …
Run Code Online (Sandbox Code Playgroud)

azure azure-storage-blobs apache-spark azure-data-lake

6
推荐指数
2
解决办法
4019
查看次数

如何在 Microsoft Integration Runtime 配置管理器中更改数据工厂?

我已经安装了 Microsoft Integration Runtime 配置管理器当我将数据从本地 SQL Server 迁移到 Azure Data Lake 以及当我尝试将其用于另一个 Azure 数据工厂时,我找不到为数据添加新密钥的空间工厂。怎么做。提前致谢

azure azure-data-lake azure-data-factory-2 azure-sql-data-warehouse

6
推荐指数
2
解决办法
6312
查看次数

Azure Data Lake Gen 2 存储中的 Parquet 与 Delta 格式

我正在将事实表和维度表从 SQL Server 导入到 Azure Data Lake Gen 2。

如果我要整理表格以创建对在 Azure Databricks 上运行 ML 模型有用的数据集,我应该将数据保存为“Parquet”还是“Delta”?

存储为 parquet 和 delta 有什么区别?

apache-spark apache-spark-sql azure-data-lake azure-databricks azure-data-lake-gen2

6
推荐指数
3
解决办法
6388
查看次数

确保在 Azure Data Lake Store 帐户中正确配置了 ACL 和防火墙规则

我正在使用复制数据工具使用 Azure 数据工厂将 CSV 文件从 Azure blob 处理到 Azure Data Lake。我正在关注此链接:https : //docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-copy-data-tool

Fron Copy 数据工具我的源配置和测试连接成功。但是,目标连接(即数据湖)正在产生问题。

我收到错误消息:确保在 Azure Data Lake Store 帐户中正确配置了 ACL 和防火墙规则。

我按照此链接进行 Fairwall 设置:https ://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-secure-data (设置数据访问的 IP 地址范围)

启用公平墙并允许访问 Azure 服务“ON”

尽管如此,我还是遇到了同样的错误。任何人都可以请建议。如何解决这个问题?

azure azure-data-factory azure-data-lake

5
推荐指数
2
解决办法
5607
查看次数

Databricks 仅打印大约 280 行数据

我正在 Databricks 中运行一些大型作业,目前包括清点数据湖。我正在尝试打印前缀(子文件夹)内的所有 blob 名称。这些子文件夹中有很多文件,我打印了大约 280 行文件名,但后来我看到了:*** WARNING: skipped 494256 bytes of output *** 然后,我又打印了 280 行。

我猜有一个控件可以改变这一点,对吧。我当然希望如此。这旨在处理大数据,而不是 ~280 条记录。我知道庞大的数据集很容易使浏览器崩溃,但很常见,这基本上没什么。

python python-3.x azure-data-lake databricks

5
推荐指数
2
解决办法
3388
查看次数