nul*_*ken 2 github google-bigquery github-archive
在GitHub的存档 项目状态
GitHub Archive是一个记录公共GitHub时间线,将其存档并使其易于访问以进行进一步分析的项目.
此档案也可通过Google Big Query查询.但是,看起来我要么缺少某些东西,要么只有部分数据可用.
实际上,运行以下查询仅返回1636WatchEvents(已启动或已停止),而Rails存储库帐户不仅仅是14300观察者.
SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;
Run Code Online (Sandbox Code Playgroud)
看起来最旧的检索数据或多或少是2.5个月.
数据是否会被截断(对于存档而言可能看起来很奇怪)?是否存在我不知道与BigQuery的使用相关的限制/配额?

那是对的.项目/爬虫在今年3月11日上线,因此当前存档从那天开始.在githubarchive.org页面上有一个关于这个的说明,但我想我应该让它更加明显和明确.
GitHub团队有一个关于提供更多历史记录的帖子,但我还没有ETA.手指交叉 :-)
| 归档时间: |
|
| 查看次数: |
704 次 |
| 最近记录: |