首页 > 编程知识 正文

自己搭建ip代理池(如何自己搭建代理服务器)

时间:2023-05-04 22:18:33 阅读:743 作者:354

新的代理ip池

二等兵边肖007可以获得几十套PDF和大量学习教程!

在这篇文章之前,很多人应该看过很多关于建立代理ip池的文章,然后发现都是坑,不能用。说很多。1.建议买xx家的代理ip,贼稳,效果好(广告)。2.抓取xx的免费代理ip,然后自己写一个检查,然后写一个api给爬虫使用。

先不说第一种方法。真的有好几个代理IPS(别问我谁的好,我不知道,我写这篇文章只是为了推广我自己写的项目)

其次,github上的这类项目已经出海了。大部分情况下,你搭建好之后,发现爬虫还是爬不动,自由代理ip根本用不上!我用了稍微好一点的haipproxy,但是没有解决根本问题!大多数ip故障太快了!而且,各种错误,爬十页,都能成功,都是高度香的。

那么,为什么免费代理ip不工作呢?很多人问,那些ip代理真的有那么多IPS吗?

其实不是,很多免费的代理IP都被扫描出来,扫描IP段、端口和特征码。发现可以使用,也就是代理ip。

代理ip不容易使用,一般原因如下:1。扫描的代理ip是临时的;2.流量太大,服务器都挂了;3.根本不是代理IP;4.有认证;5.它是http的代理,你用它来访问https,当然不行!6.代理异常,连接中断,带宽被覆盖,返回错误。

如果不想花钱,只能自己找一个稳定的代理ip,然后使用。而一般的代理池,就是拿百度、知乎、豆瓣,有什么网站接入,就变成那种可以用,失败或者失败的。最多加个分算点什么。

之前看过haipproxy的代码,成功率高的话还得自己写验证。说白了,在使用爬虫之前,尽量访问它来提高成功率。我觉得没什么意义。

以上都是废话,以下是主要的。事实上,极少数免费的代理ip都是非常稳定的代理服务器,所以这些服务器可以长期使用。

我抢到了免费的代理ip,过滤后剩下的ip访问成功率基本上是90%。

首先,其实最简单的方法就是根据服务器的开放端口来判断。如果服务器有80、3389、3306、22等开放端口,说明服务器上还有其他服务在运行,挂机的概率很小。如果是政府或者学校的服务器,更稳定。当然,也可以开放其他端口。

第二,判断服务器的访问速度,我们需要访问多个不同的网站得到平均值,这样访问速度相对稳定。

第三,代理ip生存时间越长,越稳定。当然,这是在你设置并抓取之后计算出来的。

第四,重新检查代理类型,通过访问不同的http和https网站,判断代理是http还是https,并将其划分为http代理,然后在访问http URL时使用,https代理为https访问提供服务,这样可以提高访问概率。

因此,根据这几点,我重写了一套代理ip池项目。目前我抢ip 4500,长期稳定的ip在60左右。虽然很少,但是相当稳定。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。