首先澄清一下,使用爬行动物增加访问量是错误的,同学们请不要用。
怎么用java的jsoup进行爬行动物,怎么用http,代码有点多,怎么节约呢?
一.首先,在项目中引入以下jar包,使爬行动物变得简单方便:
org.jsoup
jsoup
1.11.3
二、什么也别说,贴上代码,一页就能实现
import java.io.IOException;
导入Java.text.simple date format;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.Timer;
import java.util.TimerTask;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
importorg.jsoup.select.elements;
公共类csdn {
publicstaticvoidmain (字符串[ ] args ) throws IOException { )。
//执行计划的任务放在TimerTask的子类中,Timer执行该任务。
Timer timer=new Timer (;
//创建任务,1s后开始运行,然后每隔2分钟运行一次。
timer.schedule (新时间) )。
制作//N,看循环的次数
int n=1;
制作//M,看循环的次数
int m=0;
@Override
公共void run (}
列表列表=new ArrayList (;
//循环的次数只要你的博客有几页就可以了。 你可以爬上去。 我会懒散地爬上去,就这样写着去死。 我的博客共有9页。
for(intI=1; i 10; I ) {
文档副本;
try {
//首先获取博客上的所有链接并将其放入列表中
doc=jsoup.connect (https://blog.csdn.net/weixin _ 38959210/article/list/' I '? )
. header (接受编码)、(gzip、deflate ) )
.用户代理(Mozilla/5.0 ) windowsnt6.1; WOW64; rv:23.0 ) gecko/20100101Firefox/23.0 ' )
. maxbodysize(0)。
. timeout(600000 )。
. get (;
elementscsdndoc=doc.select(H4 );
elementscsdnurl=csdn doc.select (a );
元素元素: csdn URL (for ) {
stringfangwenliang=element.attr (href );
list.add (方文良);
}
}catch(ioexceptione ) {
//todo auto-generated catch块
e .打印堆栈跟踪(;
}
}
//list中的链路循环访问,但list上一直存在一个广告链路,所以判断。
for(intj=0; j list.size (; j ) {
stringURL=list.get(j ).toString );
if (URL.equals (https://blog.csdn.net /漂亮的黑米_liyy/article/details/82762601 ) ) ) 0
System.out.println ('进入了一个名为漂亮黑米_liyy的广告网站);
}else {
System.out.println ('成功点击博客);
try {
//已开始访问。 一次也没访问的话就一次点击。
documents Huaxin=jsoup.connect (URL ) ) ) ) ) ) )。
. header (接受编码)、(gzip、deflate ) )
.用户代理(Mozilla/5.0 ) windowsnt6.1; WOW64; rv:23.0 ) gecko/20100101Firefox/23.0 ' )
. maxbodysize(0)。
. timeout(600000 )。
. get (;
m;
}catch(ioexceptione ) {
//todo auto-generated catch块
e .打印堆栈跟踪(;
}
}
}
System.out.println (“停止访问博客”);
System.out.println ('已单击博客。' 米'篇);
日期=new date (;
simpledateformatdf=newsimpledateformat (yyyy-mm-ddhh : mm : ss );
system.out.println;
n;
}
、1000、120000; 由于csdn对频繁刷新有限制,因此每隔1秒到2分钟执行一次设置
}
}
三、根据自己的博客修改访问地址,这个长字符串https://blog.csdn.net/weixin _ 38959210/article/list/' I '?
如果有广告,查看自己的广告地址,修改这个长字符串https://blog.csdn.net/美丽的黑米_liyy/article/details/82762601
四:然后就能跑了
资料来源: oschina
链接: https://my.oschina.net/u/3938777/blog/3159091