海关(Customs) - Github Action 自动化 镜像数据收集与分析,为云安全研究提供数据支持。
基于GitHub GraphQL API v4
, 获取每天创建的仓库中存在的Dockerfile
,通过REST API
去定向搜索FROM
字样并解析内容,记录统计数据。
依此来绕过search code API
最多只能获取到1000个的限制。
很多repo没有indexed,导致搜索时报错:
This repository's code is being indexed right now. Try again in a few minutes.
search接口的limit为 10次/分钟,只能依照这个速率进行爬取。