BigQuery:GHTorrent 何时刷新以及如何获取最新信息?

Ste*_*ren 5 github google-bigquery

ghtorrent-bq拥有 GitHub 快照的数据很棒,但是,尚不清楚何时更新以及如何获取更多最新数据

Fel*_*ffa 3

(与/sf/answers/3005167441/相关)

GHTorrent 仅在 BigQuery 上提供其数据的定期快照,而 GitHub Archive 每天(甚至每小时 - 让我检查一下)更新。

拥有更频繁的 GHTorrent 快照会很棒(也许https://twitter.com/gousiosg可以提供帮助),但与此同时,您可以合并两个数据集(查找 GHTorrent 快照数据,然后添加最新的星星来自 GitHub 档案):

#standardSQL
SELECT COUNT(DISTINCT login) c
FROM (
  SELECT login
  FROM (
    SELECT login
    FROM `ghtorrent-bq.ght_2017_01_19.watchers` a
    JOIN `ghtorrent-bq.ght_2017_01_19.projects` b
    ON a.repo_id=b.id
    JOIN `ghtorrent-bq.ght_2017_01_19.users` c
    ON a.user_id=c.id
    WHERE url = 'https://api.github.com/repos/angular/angular'
  )
  UNION ALL (
    SELECT actor.login
    FROM `githubarchive.month.2017*` 
    WHERE repo.name='angular/angular'
    AND type = "WatchEvent"
  )
)
Run Code Online (Sandbox Code Playgroud)