首页 > 编程知识 正文

刷网页访问量软件(java爬虫爬取网页内容)

时间:2023-05-03 23:58:48 阅读:65824 作者:2583

首先澄清一下,使用爬行动物增加访问量是错误的,同学们请不要用。

怎么用java的jsoup进行爬行动物,怎么用http,代码有点多,怎么节约呢?

一.首先,在项目中引入以下jar包,使爬行动物变得简单方便:

org.jsoup

jsoup

1.11.3

二、什么也别说,贴上代码,一页就能实现

import java.io.IOException;

导入Java.text.simple date format;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import java.util.Timer;

import java.util.TimerTask;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

importorg.jsoup.select.elements;

公共类csdn {

publicstaticvoidmain (字符串[ ] args ) throws IOException { )。

//执行计划的任务放在TimerTask的子类中,Timer执行该任务。

Timer timer=new Timer (;

//创建任务,1s后开始运行,然后每隔2分钟运行一次。

timer.schedule (新时间) )。

制作//N,看循环的次数

int n=1;

制作//M,看循环的次数

int m=0;

@Override

公共void run (}

列表列表=new ArrayList (;

//循环的次数只要你的博客有几页就可以了。 你可以爬上去。 我会懒散地爬上去,就这样写着去死。 我的博客共有9页。

for(intI=1; i 10; I ) {

文档副本;

try {

//首先获取博客上的所有链接并将其放入列表中

doc=jsoup.connect (https://blog.csdn.net/weixin _ 38959210/article/list/' I '? )

. header (接受编码)、(gzip、deflate ) )

.用户代理(Mozilla/5.0 ) windowsnt6.1; WOW64; rv:23.0 ) gecko/20100101Firefox/23.0 ' )

. maxbodysize(0)。

. timeout(600000 )。

. get (;

elementscsdndoc=doc.select(H4 );

elementscsdnurl=csdn doc.select (a );

元素元素: csdn URL (for ) {

stringfangwenliang=element.attr (href );

list.add (方文良);

}

}catch(ioexceptione ) {

//todo auto-generated catch块

e .打印堆栈跟踪(;

}

}

//list中的链路循环访问,但list上一直存在一个广告链路,所以判断。

for(intj=0; j list.size (; j ) {

stringURL=list.get(j ).toString );

if (URL.equals (https://blog.csdn.net /漂亮的黑米_liyy/article/details/82762601 ) ) ) 0

System.out.println ('进入了一个名为漂亮黑米_liyy的广告网站);

}else {

System.out.println ('成功点击博客);

try {

//已开始访问。 一次也没访问的话就一次点击。

documents Huaxin=jsoup.connect (URL ) ) ) ) ) ) )。

. header (接受编码)、(gzip、deflate ) )

.用户代理(Mozilla/5.0 ) windowsnt6.1; WOW64; rv:23.0 ) gecko/20100101Firefox/23.0 ' )

. maxbodysize(0)。

. timeout(600000 )。

. get (;

m;

}catch(ioexceptione ) {

//todo auto-generated catch块

e .打印堆栈跟踪(;

}

}

}

System.out.println (“停止访问博客”);

System.out.println ('已单击博客。' 米'篇);

日期=new date (;

simpledateformatdf=newsimpledateformat (yyyy-mm-ddhh : mm : ss );

system.out.println;

n;

}

、1000、120000; 由于csdn对频繁刷新有限制,因此每隔1秒到2分钟执行一次设置

}

}

三、根据自己的博客修改访问地址,这个长字符串https://blog.csdn.net/weixin _ 38959210/article/list/' I '?

如果有广告,查看自己的广告地址,修改这个长字符串https://blog.csdn.net/美丽的黑米_liyy/article/details/82762601

四:然后就能跑了

资料来源: oschina

链接: https://my.oschina.net/u/3938777/blog/3159091

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。