Ste*_*ren 5 github google-bigquery
ghtorrent-bq
拥有 GitHub 快照的数据很棒,但是,尚不清楚何时更新以及如何获取更多最新数据
GHTorrent 仅在 BigQuery 上提供其数据的定期快照,而 GitHub Archive 每天(甚至每小时 - 让我检查一下)更新。
拥有更频繁的 GHTorrent 快照会很棒(也许https://twitter.com/gousiosg可以提供帮助),但与此同时,您可以合并两个数据集(查找 GHTorrent 快照数据,然后添加最新的星星来自 GitHub 档案):
#standardSQL
SELECT COUNT(DISTINCT login) c
FROM (
SELECT login
FROM (
SELECT login
FROM `ghtorrent-bq.ght_2017_01_19.watchers` a
JOIN `ghtorrent-bq.ght_2017_01_19.projects` b
ON a.repo_id=b.id
JOIN `ghtorrent-bq.ght_2017_01_19.users` c
ON a.user_id=c.id
WHERE url = 'https://api.github.com/repos/angular/angular'
)
UNION ALL (
SELECT actor.login
FROM `githubarchive.month.2017*`
WHERE repo.name='angular/angular'
AND type = "WatchEvent"
)
)
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
601 次 |
最近记录: |