我试图使用USQL从JSON文件中提取数据.查询成功运行而不生成任何输出数据或导致"顶点失败快速错误".
JSON文件如下所示:
{
"results": [
{
"name": "Sales/Account",
"id": "7367e3f2-e1a5-11e5-80e8-0933ecd4cd8c",
"deviceName": "HP",
"deviceModel": "g6-pavilion",
"clientip": "0.41.4.1"
},
{
"name": "Sales/Account",
"id": "c01efba0-e0d5-11e5-ae20-af6dc1f2c036",
"deviceName": "acer",
"deviceModel": "veriton",
"clientip": "10.10.14.36"
}
]
}
Run Code Online (Sandbox Code Playgroud)
我的U-SQL脚本是
REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];
DECLARE @in string="adl://xyz.azuredatalakestore.net/todelete.json";
DECLARE @out string="adl://xyz.azuredatalakestore.net/todelete.tsv";
@trail2=EXTRACT results string FROM @in USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();
@jsonify=SELECT Microsoft.Analytics.Samples.Formats.Json.JsonFunctions.JsonTuple(results,"name","id","deviceName","deviceModel","clientip") AS rec FROM @trail2;
@logSchema=SELECT rec["name"] AS sysName,
rec["id"] AS sysId,
rec["deviceName"] AS domainDeviceName,
rec["deviceModel"] AS domainDeviceModel,
rec["clientip"] AS domainClientIp
FROM @jsonify;
OUTPUT @logSchema TO @out …
Run Code Online (Sandbox Code Playgroud) 我想设置一个 Azure 数据工厂管道,它执行移动(即复制、验证、删除)操作,而不仅仅是 Blob 存储和数据湖存储之间的复制操作。我似乎无法找到有关如何执行此操作的任何详细信息。
如果我不知道表中包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中?
来自数据库世界,当我们有一些与数据相关的东西时,我们使用一个ui工具来查询数据。无论大小。
是否有适用于Azure Data Lake的SSMS,SQL WorkBench(用于大数据Redshift),Athena(查询大数据S3)?
我看到Data Lake Analytics只是查询数据并将其存储在文件中。无论如何,是否有通过UI工具或基于Web的工具查询Azure Data Lake上的数据?
我正在使用 ADF 连接到源并将数据获取到 Azure Data Lake 存储中。将数据放入 Data Lake Store 后,我想做一些转换、聚合,并在 SSRS 报告中使用该数据以及创建多维数据集。
谁能建议我哪个是最佳选择(Azure Data Lake Analytics 或 Azure SQL DW)?
我正在寻找在数据湖之后采取哪一个的决定。
我需要能够在我的本地机器上运行 spark 来访问 azure wasb 和 adl url,但我无法让它工作。我在这里有一个精简的例子:
maven pom.xml(全新的pom,只设置了依赖):
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.3.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.3.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-azure-datalake</artifactId>
<version>3.1.0</version>
</dependency>
<dependency>
<groupId>com.microsoft.azure</groupId>
<artifactId>azure-storage</artifactId>
<version>6.0.0</version>
</dependency>
<dependency>
<groupId>com.microsoft.azure</groupId>
<artifactId>azure-data-lake-store-sdk</artifactId>
<version>2.2.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-azure</artifactId>
<version>3.1.0</version>
</dependency>
<dependency>
<groupId>com.microsoft.azure</groupId>
<artifactId>azure-storage</artifactId>
<version>7.0.0</version>
</dependency>
Run Code Online (Sandbox Code Playgroud)
Java 代码(不需要是 java - 可以是 scala):
import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.SparkSession;
public class App {
public static void main(String[] args) {
SparkConf config = new SparkConf();
config.setMaster("local");
config.setAppName("app"); …
Run Code Online (Sandbox Code Playgroud) 我已经安装了 Microsoft Integration Runtime 配置管理器当我将数据从本地 SQL Server 迁移到 Azure Data Lake 以及当我尝试将其用于另一个 Azure 数据工厂时,我找不到为数据添加新密钥的空间工厂。怎么做。提前致谢
azure azure-data-lake azure-data-factory-2 azure-sql-data-warehouse
我正在将事实表和维度表从 SQL Server 导入到 Azure Data Lake Gen 2。
如果我要整理表格以创建对在 Azure Databricks 上运行 ML 模型有用的数据集,我应该将数据保存为“Parquet”还是“Delta”?
存储为 parquet 和 delta 有什么区别?
apache-spark apache-spark-sql azure-data-lake azure-databricks azure-data-lake-gen2
我正在使用复制数据工具使用 Azure 数据工厂将 CSV 文件从 Azure blob 处理到 Azure Data Lake。我正在关注此链接:https : //docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-copy-data-tool
Fron Copy 数据工具我的源配置和测试连接成功。但是,目标连接(即数据湖)正在产生问题。
我收到错误消息:确保在 Azure Data Lake Store 帐户中正确配置了 ACL 和防火墙规则。
我按照此链接进行 Fairwall 设置:https ://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-secure-data (设置数据访问的 IP 地址范围)
启用公平墙并允许访问 Azure 服务“ON”
尽管如此,我还是遇到了同样的错误。任何人都可以请建议。如何解决这个问题?
我正在 Databricks 中运行一些大型作业,目前包括清点数据湖。我正在尝试打印前缀(子文件夹)内的所有 blob 名称。这些子文件夹中有很多文件,我打印了大约 280 行文件名,但后来我看到了:*** WARNING: skipped 494256 bytes of output ***
然后,我又打印了 280 行。
我猜有一个控件可以改变这一点,对吧。我当然希望如此。这旨在处理大数据,而不是 ~280 条记录。我知道庞大的数据集很容易使浏览器崩溃,但很常见,这基本上没什么。
azure-data-lake ×10
azure ×7
apache-spark ×2
u-sql ×2
databricks ×1
output ×1
python ×1
python-3.x ×1