首页 > 编程知识 正文

使用github的好处,怎样使用github

时间:2023-05-04 03:11:47 阅读:274466 作者:1016

github自己有API,如果自己写的爬虫没有特色或者没有很高的效率,不如使用API,数据获取可以来得快一些。github不像社交网站那样拥有大量用户和内容,所以数据规模相对小一点,使用API也相对便捷一些。

使用github的API

没有token的情况下,只有60次访问,而且有的IP直接被限制。除此之外,有一些API在访问的时候必须要认证的参数,所以还是进行认证好一些。官方API文档有详细的功能说明。

支持的验证访问方式有如下几种:使用token;使用auth认证。使用token简单一点。

对于生成的token还有访问权限范围的设置,避免滥用token。这是纯粹是为了开发,如果只是简单的获取点信息,没有什么设置的必要,可以全部关闭。

生成一个github的token

在主页设置——开发者设置下面,生成一个token。中间让你选择这个token 的作用域,如果只是访问官方的API,就不需要选择任何东西。

使用API之后,就可以拥有每小时5000次的请求。单线程在国内对github进行请求,受限于速度,很难做到每小时爬完5000次。多线程更不推荐,请求太多,github自身访问也不稳定,程序挂得很快。

下面是一个可以查看自己的剩余的次数的地址:

https://api.github.com/rate_limit?access_token=YOUR_TOKEN 如何遍历

github的API用起来很方便,通过修改GET请求参数中的page=的数字,就可以切换不同页面。序号从1开始,响应包的响应头link字段中会有上一个和下一个地址等信息,一般只用到下一个。结束的条件就是没有link字段不再有next相关的信息。遍历非常容易。

如果咋遍历用户的某些信息之前,曾经获取过用户粉丝或者关注者总数量的操作,可按照每页的数量(通常是30个)做计算得到最大的页数,然后进行遍历,可以替代每次检查响应头的办法。

常用的地址

用户资料:

https://api.github.com/users/B1u3Buf4

用户粉丝:

https://api.github.com/users/B1u3Buf4/followers

用户关注:

https://api.github.com/users/B1u3Buf4/following

用户仓库:

https://api.github.com/users/B1u3Buf4/repos

用户星赞:

https://api.github.com/users/B1u3Buf4/starred 申请token


首先登陆github,右上角点击头像,选择settings。

左侧选择Developer settings,之后会跳到下一个界面。

切换到personal access tokens,然后选择Generate new token生成新的token。接下来勾选token的权限,如果只是获取信息,建议什么权限都不要勾选。如果有开发需求,遵循权限最小原则进行勾选。之后命名一个有意义的名字,token就取到了。

注意的问题

明明在返回的json中看到一个用户的主页URL,但是通过API请求访问不到。
通常这种情况下服务器会返回404,注意检查一下状态码跳过这个用户。个别访问不到的也没有404,同样采取跳过。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。