我是新加坡管理大学的博士生.目前,我在卡内基梅隆大学(Carnegie Mellon University)从事一项研究项目,该项目需要Github Archive(http://www.githubarchive.org/)的历史事件.我注意到Google Bigquery有Github Archive数据.所以我运行一个程序来使用Google Bigquery服务抓取数据.
我刚刚发现控制台上的Google bigquery显示的价格没有实时更新......当我开始运行该程序几个小时,费用只有4美元加,所以我认为价格合理,我一直在运行这个程序.1~2天后,我在2013年9月13日再次检查价格,价格变为1388美元......因此我立即停止使用Google bigquery服务.刚才我再次检查了价格,事实证明我需要支付4179美元......
我没有意识到我需要支付这么多钱才能执行查询并从Google bigquery获取数据.
该项目仅用于研究,不用于商业目的.我想知道是否可以免收费用.我真的需要[Google Bigquery团队]的帮助.
非常感谢和最诚挚的问候,丽莎
Fel*_*ffa 18
一年后更新:
请注意这种情况以来的一些重大进展:
BigQuery定价基于查询的数据量.其中一个亮点是它可以轻松扩展,从几千秒扫描到几兆字节.
线性定价是一个特征:我所知道的大多数(或所有?)其他数据库需要指数级更昂贵的资源,或者只是无法处理这些数据量 - 至少在合理的时间范围内.
也就是说,线性扩展意味着超过1兆字节的查询比超过1千兆字节的查询要贵1000倍.BigQuery用户需要了解这一点并做出相应的计划.出于这些目的,BigQuery提供了"干运行"标志,允许人们在运行查询之前确切地查看将要查询的数据量 - 并相应地进行调整.
在这种情况下,WeiGong正在查询一个105 GB的表.十个SELECT * LIMIT 10查询很快就会达到数TB的数据,依此类推.
有一些方法可以使这些相同的查询消耗更少的数据:
SELECT * LIMIT 10,只调用您要查找的列.BigQuery根据您要查询的列收费,因此使用不必要的列会增加不必要的成本.例如,SELECT * ...查询105 GB,而SELECT repository_url, repository_name, payload_ref_type, payload_pull_request_deletions FROM [githubarchive:github.timeline]只需要8.72 GB,这使得此查询的成本降低了10倍以上.
在寻找下载整个表时,使用tabledata.list而不是"SELECT*".免费.
Github归档表包含所有时间的数据.如果您只想查看一个月的数据,请对其进行分区.
例如,使用查询提取所有1月数据会留下仅91.7 MB的新表.查询这张桌子比大桌子便宜一千倍!
SELECT *
FROM [githubarchive:github.timeline]
WHERE created_at BETWEEN '2014-01-01' and '2014-01-02'
-> save this into a new table 'timeline_201401'
Run Code Online (Sandbox Code Playgroud)
结合这些方法,您可以从4000美元的账单到4美元的账单,获得相同数量的快速和富有洞察力的结果.
(我正在与Github存档的所有者合作,让他们存储月度数据而不是一个单片表,以使这更容易)
| 归档时间: |
|
| 查看次数: |
2722 次 |
| 最近记录: |