标签: github-archive

如何通过Github Archive数据衡量语言流行度?

我试图通过以下方式衡量编程语言的受欢迎程度:

  1. 回购中的星星数量与......相结合
  2. 回购中使用的编程语言和......
  3. 每种语言中代码的总字节数(认识到某些语言更多/更少详细)

方便的是,Github Archive提供了大量的Github数据,由BigQuery托管.唯一的问题是我没有在Github Archive中的各种事件类型的任何有效负载中看到"语言".

这是我一直在运行的BigQuery查询,试图查找Github Archive数据中是否可以填充语言以及在何处填充:

SELECT *
FROM [githubarchive:month.201612]
WHERE JSON_EXTRACT(payload, "$.repository.language") is null
LIMIT 100
Run Code Online (Sandbox Code Playgroud)

有人可以提供一个洞察我是否能够以这种方式利用Github存档数据,以及我如何能够这样做?或者我还需要采取其他方法吗?我看到BigQuery上还有一个github_repos公共数据集,它确实有一些语言指标,但语言指标似乎一直都在.我希望最终获得某种月度指标(即,在给定月份中"活跃"回购,最流行的语言是什么).

任何建议表示赞赏!

github github-api google-bigquery github-archive

4
推荐指数
1
解决办法
546
查看次数

4
推荐指数
1
解决办法
801
查看次数

从GitHub Archive中检索数据的距离是多少?

GitHub的存档 项目状态

GitHub Archive是一个记录公共GitHub时间线,将其存档使其易于访问以进行进一步分析的项目.

此档案也可通过Google Big Query查询.但是,看起来我要么缺少某些东西,要么只有部分数据可用.

实际上,运行以下查询仅返回1636WatchEvents(已启动或已停止),而Rails存储库帐户不仅仅是14300观察者.

SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;
Run Code Online (Sandbox Code Playgroud)

看起来最旧的检索数据或多或少是2.5个月.

数据是否会被截断(对于存档而言可能看起来很奇怪)?是否存在我不知道与BigQuery的使用相关的限制/配额?

GitHub的归档

github google-bigquery github-archive

2
推荐指数
1
解决办法
704
查看次数