我想知道将documentDB移动到Azure Data Lake Storage的最佳做法是什么.我应该为集合中的每个文档创建一个文件还是移动整个documentDB?另外,我没有找到有关如何使用U-SQL访问documentDB的更多信息?
输入将不胜感激.
我有很多数据文件,最终会定期推送并存储在Azure Storage/Data Lake上.我想提供对此数据进行分析的能力,但后来我发现在Azure上有两种方法:
可以有人建议我何时使用这种方法中的哪一种?在我看来,两者都可以做类似的工作.
azure apache-spark-sql azure-data-lake u-sql cortana-intelligence
我正在考虑使用我最近几周一直在研究的Data Lake技术,与传统的ETL SSIS方案相比,我已经使用了这么多年.
我认为Data Lake与大数据密切相关,但使用Data Lake技术与SSIS之间的界限在哪里?
在25MB~100MB~300MB文件中使用Data Lake技术有什么优势吗?并行?灵活性?未来可扩展吗?当要加载的文件没有U-SQL最佳场景那么大时,是否有任何性能提升......
你的想法是什么?是不是像用锤子敲打坚果?请不要犹豫,问我任何问题,以澄清情况.提前致谢!!
21/03编辑 更多说明:
不要误会我的意思,我真的很喜欢ADL技术,但我认为现在,这是非常具体的事情,但仍然没有替代云中的SSIS.你做什么的?我错了吗?
我正在尝试使用USQL解析Json文件,但不断收到错误.
Json file@
{"dimBetType_SKey":1,"BetType_BKey":1,"BetTypeName":"Test1"}
{"dimBetType_SKey":2,"BetType_BKey":2,"BetTypeName":"Test2"}
{"dimBetType_SKey":3,"BetType_BKey":3,"BetTypeName":"Test3"}
Run Code Online (Sandbox Code Playgroud)
下面是USQL脚本,我正在尝试从上面的文件中提取数据.
REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];
DECLARE @Full_Path string =
"adl://xxxx.azuredatalakestore.net/2017/03/28/00_0_66ffdd26541742fab57139e95080e704.json";
DECLARE @Output_Path = "adl://xxxx.azuredatalakestore.net/Output/Output.csv";
@logSchema =
EXTRACT dimBetType_SKey int
FROM @Full_Path
USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();
OUTPUT @logSchema
TO @Output_Path
USING Outputters.Csv();
Run Code Online (Sandbox Code Playgroud)
但是USQL在Vertex错误时仍然失败
有帮助吗?
目前,我所有的数据文件都存储在Azure Data Lake Store中。我需要处理这些大多数为csv格式的文件。该处理将在这些文件上运行作业,以提取与特定场景有关的日期或特定事件的特定数据(例如Data)的各种信息,或从多个表/文件添加数据。这些作业每天通过数据工厂(v1或v2)中的u-sql作业运行,然后发送到powerBI进行可视化。
使用ADLA进行所有这些处理,我觉得处理需要很多时间,而且看起来非常昂贵。我建议我将Azure Databricks用于上述过程。有人可以帮助我朝着两者之间的方向发展吗?我可以将所有U-sql作业修改为Databricks笔记本格式吗?
我试图使用USQL从JSON文件中提取数据.查询成功运行而不生成任何输出数据或导致"顶点失败快速错误".
JSON文件如下所示:
{
"results": [
{
"name": "Sales/Account",
"id": "7367e3f2-e1a5-11e5-80e8-0933ecd4cd8c",
"deviceName": "HP",
"deviceModel": "g6-pavilion",
"clientip": "0.41.4.1"
},
{
"name": "Sales/Account",
"id": "c01efba0-e0d5-11e5-ae20-af6dc1f2c036",
"deviceName": "acer",
"deviceModel": "veriton",
"clientip": "10.10.14.36"
}
]
}
Run Code Online (Sandbox Code Playgroud)
我的U-SQL脚本是
REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];
DECLARE @in string="adl://xyz.azuredatalakestore.net/todelete.json";
DECLARE @out string="adl://xyz.azuredatalakestore.net/todelete.tsv";
@trail2=EXTRACT results string FROM @in USING new Microsoft.Analytics.Samples.Formats.Json.JsonExtractor();
@jsonify=SELECT Microsoft.Analytics.Samples.Formats.Json.JsonFunctions.JsonTuple(results,"name","id","deviceName","deviceModel","clientip") AS rec FROM @trail2;
@logSchema=SELECT rec["name"] AS sysName,
rec["id"] AS sysId,
rec["deviceName"] AS domainDeviceName,
rec["deviceModel"] AS domainDeviceModel,
rec["clientip"] AS domainClientIp
FROM @jsonify;
OUTPUT @logSchema TO @out …
Run Code Online (Sandbox Code Playgroud) 我想每天在azure数据湖中执行一个查询.我们可以在azure数据湖中安排U-SQL查询吗?
如果我不知道表中包含多少个不同的键值,是否可以根据列值自动将表拆分为多个文件?是否可以将键值放入文件名中?
正在阅读这篇文章:https : //aws.amazon.com/blogs/opensource/announcing-partiql-one-query-language-for-all-your-data/
看起来“PartiQL”类似于微软提供的U-SQL。这是:https : //docs.microsoft.com/en-us/azure/data-lake-analytics/data-lake-analytics-u-sql-get-started
今天有人用过“PartiQL”吗?这两者有什么区别。或者,如果它的 AWS 然后是“PartiQL”,如果 Azure 则是它的 U-SQL?请帮忙。谢谢。
处理CSV文件时,我收到有关最大字符串大小的错误."字符串大小超过允许的最大大小".