标签: azure-data-lake

如何避免Visual Studio 2015菜单栏中出现"Data Lake"菜单项？

当我启动Visual Studio Professional 2015 Update 2并打开我的vb.net项目时,Data Lake主菜单栏中没有项目.但是在开发工作期间它会在稍后出现.到目前为止,我没有注意到它出现的具体行动.您是否已经注意到哪个动作Data Lake永久可见？

我想将它隐藏起来,因为它会导致键盘快捷键冲突:它Alt+ D是已经建立的方式打开Debug菜单(相同的菜单栏上).

visual-studio-2015 azure-data-lake

mir*_*lav

lucky-day

7
推荐指数

1
解决办法

846
查看次数

使用Azure Data Lake Analytics与传统ETL方法的原因

我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.

我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里？

在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗？并行？灵活性？未来可扩展吗？当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......

你的想法是什么？是不是像用锤子敲打坚果？请不要犹豫,问我任何问题,以澄清情况.提前致谢!!

21/03编辑 更多说明:

必须在云端
我考虑使用ADL的原因是因为云中没有替代SSIS.有ADF,但它不一样,它编排数据,但它不像SSIS那么灵活
我以为我可以使用U-SQL进行一些(基本)转换,但我看到了一些问题
- 有许多我不能做的基本事情:循环,更新,在SQL中编写日志......
- 输出只能是U-SQL表或文件.这种架构看起来不太好(尽管U-SQL对于大文件非常好,如果我需要一个额外的步骤将文件导出到另一个DB或DWH) - 或者这可能是在大数据仓库中完成的方式... 我不知道
- 在我的测试中,1MB文件需要40秒,500MB文件需要1:15s.我无法证明40MB的1MB进程(加上使用ADF上传到数据库/数据仓库)
- 对于用户来说代码看起来没有组织,因为具有许多基本验证的脚本将是U-SQL脚本太长.

不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS.你做什么的？我错了吗？

azure azure-data-lake u-sql

Car*_*eno

2017 03-21

7
推荐指数

2
解决办法

2225
查看次数

在U-SQL中解析json文件

我正在尝试使用USQL解析Json文件,但不断收到错误.

Json file@

{"dimBetType_SKey":1,"BetType_BKey":1,"BetTypeName":"Test1"}
{"dimBetType_SKey":2,"BetType_BKey":2,"BetTypeName":"Test2"}
{"dimBetType_SKey":3,"BetType_BKey":3,"BetTypeName":"Test3"}

Run Code Online (Sandbox Code Playgroud)

下面是USQL脚本,我正在尝试从上面的文件中提取数据.

    REFERENCE ASSEMBLY [Newtonsoft.Json];
    REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];

DECLARE @Full_Path string =
"adl://xxxx.azuredatalakestore.net/2017/03/28/00_0_66ffdd26541742fab57139e95080e704.json";

DECLARE @Output_Path = "adl://xxxx.azuredatalakestore.net/Output/Output.csv";

@logSchema =
EXTRACT dimBetType_SKey int
FROM @Full_Path
USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();

OUTPUT @logSchema
TO @Output_Path 
USING Outputters.Csv();

Run Code Online (Sandbox Code Playgroud)

但是USQL在Vertex错误时仍然失败

有帮助吗？

json azure azure-data-factory azure-data-lake u-sql

Saz*_*Saz

2017 04-15

7
推荐指数

1
解决办法

2158
查看次数

R- 参数中的检查点函数错误意味着不同的行数：1、38、37

我需要为 HighDimout 及其依赖项创建库。这将用于将我的代码保存在 ADLA（Azure 数据湖分析）上。我正在使用微软创建的检查点包中的检查点功能。

mm <- checkpoint(snapshotDate="2017-10-17")  

Scanning for packages used in this project
- Discovered 1 packages
Installing packages used in this project 
 - Installing ‘HighDimOut’
HighDimOut
Error in data.frame(timestamp = Sys.time(), snapshotDate = snapshotDate,  : 
  arguments imply differing number of rows: 1, 38, 37

Run Code Online (Sandbox Code Playgroud)

我无法解决这个问题。我试过 - https://github.com/RevolutionAnalytics/checkpoint/issues/243并发现我的代码没有这个问题。这是 R 会话会话信息-

 sessionInfo()

Run Code Online (Sandbox Code Playgroud)

R 版本 3.5.1 (2018-07-02)
平台：x86_64-w64-mingw32/x64 (64-bit)
运行环境：Windows 7 x64 (build 7601) Service Pack 1

矩阵产品：默认

语言环境：
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] …

r azure-data-lake

Arp*_*dia

lucky-day

7
推荐指数

0
解决办法

256
查看次数

Azure Databricks与ADLA进行处理

目前，我所有的数据文件都存储在Azure Data Lake Store中。我需要处理这些大多数为csv格式的文件。该处理将在这些文件上运行作业，以提取与特定场景有关的日期或特定事件的特定数据（例如Data）的各种信息，或从多个表/文件添加数据。这些作业每天通过数据工厂（v1或v2）中的u-sql作业运行，然后发送到powerBI进行可视化。

使用ADLA进行所有这些处理，我觉得处理需要很多时间，而且看起来非常昂贵。我建议我将Azure Databricks用于上述过程。有人可以帮助我朝着两者之间的方向发展吗？我可以将所有U-sql作业修改为Databricks笔记本格式吗？

azure azure-data-lake u-sql databricks

Job*_*obi

lucky-day

7
推荐指数

1
解决办法

1970
查看次数