当我启动Visual Studio Professional 2015 Update 2并打开我的vb.net项目时,Data Lake
主菜单栏中没有项目.但是在开发工作期间它会在稍后出现.到目前为止,我没有注意到它出现的具体行动.您是否已经注意到哪个动作Data Lake
永久可见?
我想将它隐藏起来,因为它会导致键盘快捷键冲突:它Alt+ D是已经建立的方式打开Debug
菜单(相同的菜单栏上).
我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.
我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里?
在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗?并行?灵活性?未来可扩展吗?当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......
你的想法是什么?是不是像用锤子敲打坚果?请不要犹豫,问我任何问题,以澄清情况.提前致谢!!
21/03编辑 更多说明:
不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS.你做什么的?我错了吗?
我正在尝试使用USQL解析Json文件,但不断收到错误.
Json file@
{"dimBetType_SKey":1,"BetType_BKey":1,"BetTypeName":"Test1"}
{"dimBetType_SKey":2,"BetType_BKey":2,"BetTypeName":"Test2"}
{"dimBetType_SKey":3,"BetType_BKey":3,"BetTypeName":"Test3"}
Run Code Online (Sandbox Code Playgroud)
下面是USQL脚本,我正在尝试从上面的文件中提取数据.
REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];
DECLARE @Full_Path string =
"adl://xxxx.azuredatalakestore.net/2017/03/28/00_0_66ffdd26541742fab57139e95080e704.json";
DECLARE @Output_Path = "adl://xxxx.azuredatalakestore.net/Output/Output.csv";
@logSchema =
EXTRACT dimBetType_SKey int
FROM @Full_Path
USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();
OUTPUT @logSchema
TO @Output_Path
USING Outputters.Csv();
Run Code Online (Sandbox Code Playgroud)
但是USQL在Vertex错误时仍然失败
有帮助吗?
我需要为 HighDimout 及其依赖项创建库。这将用于将我的代码保存在 ADLA(Azure 数据湖分析)上。我正在使用微软创建的检查点包中的检查点功能。
mm <- checkpoint(snapshotDate="2017-10-17")
Scanning for packages used in this project
- Discovered 1 packages
Installing packages used in this project
- Installing ‘HighDimOut’
HighDimOut
Error in data.frame(timestamp = Sys.time(), snapshotDate = snapshotDate, :
arguments imply differing number of rows: 1, 38, 37
Run Code Online (Sandbox Code Playgroud)
我无法解决这个问题。我试过 - https://github.com/RevolutionAnalytics/checkpoint/issues/243并发现我的代码没有这个问题。这是 R 会话会话信息-
sessionInfo()
Run Code Online (Sandbox Code Playgroud)
R 版本 3.5.1 (2018-07-02)
平台:x86_64-w64-mingw32/x64 (64-bit)
运行环境:Windows 7 x64 (build 7601) Service Pack 1
矩阵产品:默认
语言环境:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] …
目前,我所有的数据文件都存储在Azure Data Lake Store中。我需要处理这些大多数为csv格式的文件。该处理将在这些文件上运行作业,以提取与特定场景有关的日期或特定事件的特定数据(例如Data)的各种信息,或从多个表/文件添加数据。这些作业每天通过数据工厂(v1或v2)中的u-sql作业运行,然后发送到powerBI进行可视化。
使用ADLA进行所有这些处理,我觉得处理需要很多时间,而且看起来非常昂贵。我建议我将Azure Databricks用于上述过程。有人可以帮助我朝着两者之间的方向发展吗?我可以将所有U-sql作业修改为Databricks笔记本格式吗?
我试图获取天蓝色数据湖中存在的每个文件的最后修改时间。
文件= dbutils.fs.ls('/mnt/blob')
对于文件中的 fi: print(fi)
输出:-FileInfo(路径='dbfs:/mnt/blob/rule_sheet_recon.xlsx',名称='rule_sheet_recon.xlsx',大小=10843)
在这里我无法获取文件的最后修改时间。有什么办法可以得到这个财产吗?
我尝试下面的 shell 命令来查看属性,但无法将其存储在 python 对象中。
%sh ls -ls /dbfs/mnt/blob/
输出:- 总计 0
0 -rw-r--r-- 1 root root 13577 九月 20 日 10:50 a.txt
0 -rw-r--r-- 1 root root 10843 九月 20 日 10:50 b.txt
请问当我启动 Function 应用程序时,如何从 Azure 存储帐户读取数据。我需要在运行时读取机器学习模型保存的权重。我想直接从存储帐户读取模型,因为模型预计每天更新,并且不想手动重新部署模型。
谢谢
azure-blob-storage azure-data-lake azure-devops azure-functions azure-function-app
我想每天在azure数据湖中执行一个查询.我们可以在azure数据湖中安排U-SQL查询吗?
如果我不知道表中包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中?
我正在使用 ADF 连接到源并将数据获取到 Azure Data Lake 存储中。将数据放入 Data Lake Store 后,我想做一些转换、聚合,并在 SSRS 报告中使用该数据以及创建多维数据集。
谁能建议我哪个是最佳选择(Azure Data Lake Analytics 或 Azure SQL DW)?
我正在寻找在数据湖之后采取哪一个的决定。
azure-data-lake ×10
azure ×6
u-sql ×5
azure-devops ×1
databricks ×1
json ×1
output ×1
python ×1
r ×1