python设置代理ip,java爬虫代码示例

域名解析和IP地址

域名解析是将域名指向网站空间IP，通过注册的域名方便人们访问网站的服务； IP地址是标识网络上站点的数字地址，为了便于记住，使用域名而不是IP地址来标识站点地址。域名解析是指从域名到IP地址的转换过程，该过程由DNS服务器进行(例如

让我们先了解两个知识点

1、一个域名同时只能对应一个IP地址

2、一个IP地址可以解析绑定多个域名，没有限制

基于上述知识点，如果我知道IP地址，我如何获取解析为该IP地址的所有域名信息？一种方法是国家工信部可以开放查询接口进行查询。 (不知道是否开放？ )；另一种方法是实现接下来共享的——爬虫。根据IP地址反向查找域名。

实现原理

实现原理很简单。目前，现有网站提供了基于IP地址的域名查询功能，但必须人工登录网站并输入IP地址查询。我想实现程序自动化，所以想出了爬行动物的方式。简单来说，就是模拟人的咨询行为，将咨询结果解析为想要的域名列表。

以site.ip138.com为例，打开F12，输入IP查询，观察控制台请求，查看下图信息

要求方式为GET

而且，如果分析Response，则在页面上看到的绑定域信息是下图的红框中的内容，因此如果能够解析Response的内容，则取得的内容可以得到希望的域列表。

上面的响应是HTML页面，使用jsoup分析HTML非常完美。

什么是jsoup？

jsoup是Java的HTML解析器，它直接解析URL地址和HTML文本的内容。提供一组非常省力的API，可以通过DOM、CSS和jQuery等操作方法检索和操作数据。

解析为文档对象

文档文档=jsoup.parse (result；

if (文档==null ) {

logger.error (jsoupparsegetdocumentnull！ ' )；

}

//id属性从“列表”中获取元素元素对象(您不觉得类似于jQuery吗？）

elementlistele=document.getelementbyid (' list )；

根据class属性和属性值过滤元素的元素集合(eachText ) )遍历元素的内容

returnlistele.getelementsbyattributevalue (' target '，' _blank ' ).eachText )；

result的内容通过HTTP客户端模拟HTTP请求

HTTPgethttpget=newhttpget(URL；

HTPget.setheader('accept '，'文本/html，application/xhtml xml，application/xml； q=0.9，image/webp，image/apng，*/*； q=0.8 '；

HTP get.setheader (' accept-encoding '，' gzip，deflate ' )；

HTP get.setheader (' accept-language '，' zh-CN，zh； q=0.9 '；

HTP get.setheader (' cache-control '，' max-age=0' )；

HTPget.setheader('connection '，' keep-alive ' )；

HTPget.setheader('cookie '，' hm _ lvt _ d 39191 a 0b 09 bb1 EB 023933 edaa 468 cd5=1553090128； Baidu _ ssp _ LCR=https://www.Baidu.com/link？ URL=fs 0cc ST 469 d 77 dpdxpcgyjhf7ostltyk6vcmehxt _9_ wd=eqid=fa0e26 f 70002 e 7dd 0000065 c 924649； pgv_pvi=6200530944； pgv_si=s4712839168； hm _ lpvt _ d 39191 a 0b 09 bb1 EB 023933 edaa 468 cd5=1553093270 '；

HTPget.setheader('DNT '，'1' )；

HTPget.setheader('host '，host )；

http get.setheader (' upgrade-insecure-requests '，'1' )；

HTPget.setheader('user-agent '，' Mozilla/5.0 ) ) windowsnt10.0； WOW64 ) appleWebKit/537.36(khtml，like Gecko ) Chrome/63.0.3239.132

Safari/537.36");

String result = HttpUtils.doGet(httpGet);

HTTP请求工具类

public class HttpUtils {

private static Logger logger = LoggerFactory.getLogger(HttpUtils.class);

public static String doGet(HttpGet httpGet) {

CloseableHttpClient httpClient = null;

try {

httpClient = HttpClients.createDefault();

RequestConfig requestConfig = RequestConfig.custom()

.setConnectTimeout(5000).setConnectionRequestTimeout(10000)

.setSocketTimeout(5000).build();

httpGet.setConfig(requestConfig);

HttpResponse httpResponse = httpClient.execute(httpGet);

if (httpResponse.getStatusLine().getStatusCode() == 200 ||

httpResponse.getStatusLine().getStatusCode() == 302) {

HttpEntity entity = httpResponse.getEntity();

return EntityUtils.toString(entity, "utf-8");

} else {

logger.error("Request StatusCode={}", httpResponse.getStatusLine().getStatusCode());

}

} catch (Exception e) {

logger.error("Request Exception={}:", e);

} finally {

if (httpClient != null) {

try {

httpClient.close();

} catch (IOException e) {

logger.error("关闭httpClient失败", e);

}

return null;

}

新增Controller

@RestController

public class DomainSpiderController {

private static Logger logger = LoggerFactory.getLogger(DomainSpiderController.class);

@Autowired

private DomainSpiderService domainSpiderService;

/**

* @param ip 119.75.217.109

* @return

@RequestMapping("/spider/{ip}")

@ResponseBody

public List domainSpider(@PathVariable("ip") String ip) {

long startTime = System.currentTimeMillis();

List domains = domainSpiderService.domainSpiderOfIp138(ip);

if(domains == null || domains.size() == 0) {

domains = domainSpiderService.domainSpiderOfAizan(ip);

}

long endTime = System.currentTimeMillis();

logger.info("完成爬虫任务总耗时：{}s", (endTime - startTime) / 1000);

return domains;

}

怎么样？是不是很简单？

优化改进：有时候仅仅通过一个网站查询的域名数据可能不太准确，甚至查询不到数据，我们也没法判断谁才是正确的，所以，可以通过爬取多个网站的结果结合起来使用，例如：dns.aizhan.com

提出疑问：这些提供根据IP反查域名的网站，是怎么实现的呢？我咨询过其他人，他们的回答是这些网站收集了很多IP和域名的对应关系，真实情况是这样的吗？

示例源码

domain-spider

代码已上传至码云和Github上，欢迎下载学习