Google的BigQuery vs Azure数据湖U-SQL

Kau*_*hik 2 azure google-bigquery google-cloud-platform azure-data-lake u-sql

我试图了解Google的Big查询和Azure数据Lake U-SQL之间的区别或优缺点.哪个更好 ?我已经详尽地搜索了最大的区别但却无法找到它.

Bri*_*SFT 8

好的,这两种技术之间存在一些根本区别.

数据形状

  1. Google大查询 - 他们要求您将数据转换为某些形状,如json,csv或Avro.
  2. 数据湖 - 他们只是要求你转储你在湖商店里的任何东西,你可以在它上面运行usql查询.

数据大小

Google大查询对文件大小有限制 - https://cloud.google.com/bigquery/loading-data-into-bigquery#quota虽然限制很大

Data Lake - 对文件大小没有正式的限制,你几乎可以从Petabyte文件开始.

最大的区别在于查询模型之间,但在此之前必须知道您还可以在Azure数据湖商店之上运行HBase工作负载,而HBase实际上是google big table的开源实现,您可以看到许多其他细微差别这里http://www.larsgeorge.com/2009/11/hbase-vs-bigtable-comparison.html.

谷歌大查询本身不是编译查询,而USQL是SQL语法与CLR功能的结合,首先编译USQL查询然后在数据存储上运行,这允许人们编写自定义函数来使用他们的查询解析或使用差异形式的数据.甚至可以使用Azure数据湖工具可视化USQL查询的执行计划.Big query和USQL都很容易理解和使用.

认证

  1. Google大查询具有标准API身份验证 https://cloud.google.com/bigquery/authentication
  2. ADL - 应用程序和用户的身份验证由Azure AD控制.

作为一个大数据平台都需要尊重,但我个人认为Azure Data湖是一个更好的实现,因为它允许灵活地使用开源项目,如spark,storm,hive,pig等,而大表限制你的能力只是谷歌生态系统.

通过我的Twitter处理@brijrajsingh与我联系,如果你能在GIDS班加罗尔做到这一点,我将于2016年4月29日举办关于数据湖的会议