如何通过 Github 存档数据衡量语言流行度？

Question

我正在尝试通过以下方式衡量编程语言的受欢迎程度：

repos 上的星数与...
repo 中使用的编程语言和...
每种语言的代码总字节数（认识到某些语言 more/less 冗长）

方便的是，Github 存档提供了大量 Github 数据，并由 BigQuery 托管。唯一的问题是，我在 Github 存档中的各种事件类型的任何负载中都看不到 "language" 可用。

这是我一直在运行尝试查找 Github 存档数据中是否以及在何处填充语言的 BigQuery 查询：

SELECT *
FROM [githubarchive:month.201612]
WHERE JSON_EXTRACT(payload, "$.repository.language") is null
LIMIT 100

有人可以深入了解我是否能够以这种方式利用 Github 存档数据，以及我该如何着手这样做？或者我需要采用其他方法吗？我看到 BigQuery 上也有一个 github_repos public 数据集，它确实有一些语言指标，但语言指标似乎一直都在。我希望最终获得某种月度指标（即给定月份的 "active" 回购，最流行的语言是什么）。

如有任何建议，我们将不胜感激！

Answer 1

使用 BigQuery 和 GitHub Archive 以及 GHTorrent -

去年 12 月通过拉取请求获取语言（从 http://mads-hartmann.com/2015/02/05/github-archive.html 复制粘贴）：

SELECT COUNT(*) c, JSON_EXTRACT_SCALAR(payload, '$.pull_request.base.repo.language') lang
FROM [githubarchive:month.201612]
WHERE JSON_EXTRACT_SCALAR(payload, '$.pull_request.base.repo.language') IS NOT NULL
GROUP BY 2
ORDER BY 1 DESC
LIMIT 10

要查找每个项目的星数：

SELECT COUNT(*) c, repo.name 
FROM [githubarchive:month.201612]
WHERE type='WatchEvent'
GROUP BY 2
ORDER BY 1 DESC
LIMIT 10

要快速查看语言与字节，您可以使用 GHTorrent：

SELECT language, SUM(bytes) bytes
FROM [ghtorrent-bq:ght.project_languages]
GROUP BY 1
ORDER BY 2 DESC
LIMIT 10

或查看实际文件，请参阅 contents of GitHub on BigQuery。

现在您可以混合使用这些查询来获得您想要的结果！

Answer 2

SELECT 
  JSON_EXTRACT_SCALAR(payload, '$.pull_request.head.repo.language') AS language,
  COUNT(1) AS usage
FROM [githubarchive:month.201601] 
GROUP BY language
HAVING NOT language IS NULL
ORDER BY usage DESC

如何通过 Github 存档数据衡量语言流行度？

How to measure language popularity via Github Archive data?

github

github-api

google-bigquery

github-archive