安装命令:
# 添加EPEL仓库,然后更新yum源:sudo yum install epel-releasesudo yum update# 安装sudo yum install -y tinyproxy修改配置:
vim /etc/tinyproxy/tinyproxy.conf修改 Port 端口,默认为 8888Port 8888注释掉 Allow 127.0.0.1,表示允许所有人访问代理启动服务:service tinyproxy start
日志:/var/log/tinyproxy/tinyproxy.log
本地测试:curl -x ‘ip:port’ -v icanhazip.com
注意点&坑:
我一开始用的芝麻VPS,到这一步后,在vps上用局域网IP可以通过代理服务器访问,但在本地通过公网IP就无法访问,最后发现是由于外网无法访问该服务器,试过开放端口等操作,无果,云立方的是直接可以通过公网IP使用代理yum安装时,报错:yum doesn’t have enough cached data to continue, 解决办法: 将/etc/yum.repos.d/epel.repo中的mirrorlist改为baseurl/etc/resolv.conf文件中增加 nameserver 144.144.144.144在断开重播时,有时adsl-start会执行失败,报错:“/usr/sdrddy/adsl-start: line 217: 5749 Terminated C O N N E C T " CONNECT " CONNECT"@" > /dev/null 2>&1”,最后发现可能是断开连接的不干净,多执行几次adsl-stop,在执行adsl-start就会成功了 在代理服务tinyproxy运行期间,报过这个错:Waiting servers (0) is less than MinSpareServers (5). Creating new child.,原因是达到最大连接数,无法创建新的连接处理请求,代理服务也就挂了,重启代理服务即可,解决办法 vim /etc/tinyproxy/tinyproxy.confMaxClients 100 -> 500 # 最大连接数Timeout 600 -> 20 # 超时时间 2、搭建Python环境(1) 安装Python Python依赖
sudo yum install yum-utilssudo yum-builddep pythonPython源码连接:https://www.python.org/ftp/python/
curl -O https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz我在用curl时无法下载,可以到官网下载指定版本的Python,然后传到服务器上
tar xf Python-3.5.0.tgzcd Python-3.5.0./configuremakesudo make install安装完成后通过python3 -V来查看当前版本
(2) 安装虚拟环境
cd ~mkdir venvcd venvpython3 -m venv python3-forcrawlsource ~/venv/python3-forcrawl/drddy/activate(3) 安装相应的python库
pip install requests# 安装其他环境导出的库pip install -r requirements.txt 阿里云服务器: 功能:接受动态VPS发送的IP,并提供接口,返回动态VPS实时的IP&端口工具:web服务-tornado 连接:ssh root@ip -p 22, 如果忘记服务器密码,可以重置实例登陆密码和远程连接密码:更多->密码、秘钥搭建Python环境同上,安装tornado pip install tornadosudo yum install -y redis# 启动服务redis-server >> /dev/null 2>&1 &# 连接redisredis-cli mongo数据库(可以不进行安装,实现基本的代理功能不需要该库) # yum中没有mongo的下载源,需要手动添加vi /etc/yum.repos.d/mongodb-org-3.4.repo# 写入以下信息,针对centos7[mongodb-org-3.4]name=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/redhat/7/mongodb-org/3.4/x86_64/gpgcheck=1enabled=1gpgkey=https://www.mongodb.org/static/pgp/server-3.4.asc# 安装sudo yum install -y mongodb-org启动:systemctl start mongod.service注意点&坑:
ssh链接时,报错Permission denied (publickey,gssapi-keyex,gssapi-with-mic),解决办法: 通过阿里云web终端登录到服务器,修改ssh配置文件 vim /etc/ssh/sshd_config更改:PasswordAuthentication no(默认yes)或打开注释:PermitRootLogin yes 代码实现逻辑1、客户端:动态vps
通过Python执行断开连接&拨号的操作,成功后匹配获取公网IP,通过requests库将IP发送至服务端为了避免恶意干扰,可以加上一个传输秘钥,服务器验证传输秘钥,验证失败的不进行IP更新设置定时任务来实现IP的更换传送的数据中,包含IP、秘钥、name(区分vps服务器)2、服务端:固定IP服务器
使用tornado启动服务,提供两个接口
post接口:接收客户端发送的IP,验证秘钥成功后,以name为key,ip&port为val,存入redisget接口:从redis中取出ip&port并返回代理检测程序:可用于检测IP的可用性,剔除失效IP
总结 相对直接购买代理,价格更便宜,且速度不受限制,但是缺点是,在vps拨号,到传输到服务器,再到爬虫使用代理,这个过程存在延迟,可能在切换IP时,会导致代理不可用,解决方案是设置超时时间并休眠几秒后进行重试不适用于对IP切换速度要求很快的服务,拨号太频繁了,一个是IP有时不变,另一个容易拨号失败如果在线上环境中使用,可以多买几台动态vps,搞一个IP池代码实现见:https://download.csdn.net/download/huangbangqing12/58718986