java实现网页爬虫的示例讲解（java爬虫爬取网页内容）

本文目录一览：

1、java jsoup怎样爬取特定网页内的数据
2、java如何做高级爬虫
3、java 网络爬虫怎么实现？
4、如何使用Java语言实现一个网页爬虫
5、Java网络爬虫怎么实现？
6、网络爬虫解析网页怎样用java代码实现

java jsoup怎样爬取特定网页内的数据

1、Jsoup简述

Java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup拥有十分方便的api来处理html文档，比如参考了DOM对象的文档遍历方法，参考了CSS选择器的用法等等，因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

2、快速开始

1)分析HTML页面，明确哪些数据是需要抓取的

2)使用HttpClient读取HTML页面

HttpClient是一个处理Http协议数据的工具，使用它可以将HTML页面作为输入流读进java程序中.

3)使用Jsoup解析html字符串

通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。

3、保存爬取的页面数据

1)保存普通数据到数据库中

将爬取的数据封装进实体Bean中，并存到数据库内。

2)保存图片到服务器上

直接通过下载图片的方式将图片保存到服务器本地。

java如何做高级爬虫

下面说明知乎爬虫的源码和涉及主要技术点：

（1）程序package组织

（2）模拟登录（爬虫主要技术点1）

要爬去需要登录的网站数据，模拟登录是必要可少的一步，而且往往是难点。知乎爬虫的模拟登录可以做一个很好的案例。要实现一个网站的模拟登录，需要两大步骤是：（1）对登录的请求过程进行分析，找到登录的关键请求和步骤，分析工具可以有IE自带(快捷键F12)、Fiddler、HttpWatcher；（2）编写代码模拟登录的过程。

（3）网页下载（爬虫主要技术点2）

模拟登录后，便可下载目标网页html了。知乎爬虫基于HttpClient写了一个网络连接线程池，并且封装了常用的get和post两种网页下载的方法。

（4）自动获取网页编码（爬虫主要技术点3）

自动获取网页编码是确保下载网页html不出现乱码的前提。知乎爬虫中提供方法可以解决绝大部分乱码下载网页乱码问题。

（5）网页解析和提取（爬虫主要技术点4）

使用Java写爬虫，常见的网页解析和提取方法有两种：利用开源Jar包Jsoup和正则。一般来说，Jsoup就可以解决问题，极少出现Jsoup不能解析和提取的情况。Jsoup强大功能，使得解析和提取异常简单。知乎爬虫采用的就是Jsoup。 ...展开下面说明知乎爬虫的源码和涉及主要技术点：

（1）程序package组织

（2）模拟登录（爬虫主要技术点1）

（3）网页下载（爬虫主要技术点2）

模拟登录后，便可下载目标网页html了。知乎爬虫基于HttpClient写了一个网络连接线程池，并且封装了常用的get和post两种网页下载的方法。

（4）自动获取网页编码（爬虫主要技术点3）

自动获取网页编码是确保下载网页html不出现乱码的前提。知乎爬虫中提供方法可以解决绝大部分乱码下载网页乱码问题。

（5）网页解析和提取（爬虫主要技术点4）

使用Java写爬虫，常见的网页解析和提取方法有两种：利用开源Jar包Jsoup和正则。一般来说，Jsoup就可以解决问题，极少出现Jsoup不能解析和提取的情况。Jsoup强大功能，使得解析和提取异常简单。知乎爬虫采用的就是Jsoup。

（6）正则匹配与提取（爬虫主要技术点5）

虽然知乎爬虫采用Jsoup来进行网页解析，但是仍然封装了正则匹配与提取数据的方法，因为正则还可以做其他的事情，如在知乎爬虫中使用正则来进行url地址的过滤和判断。

（7）数据去重（爬虫主要技术点6）

对于爬虫，根据场景不同，可以有不同的去重方案。（1）少量数据，比如几万或者十几万条的情况，使用Map或Set便可；（2）中量数据，比如几百万或者上千万，使用BloomFilter（著名的布隆过滤器）可以解决；（3）大量数据，上亿或者几十亿，Redis可以解决。知乎爬虫给出了BloomFilter的实现，但是采用的Redis进行去重。

（8）设计模式等Java高级编程实践

除了以上爬虫主要的技术点之外，知乎爬虫的实现还涉及多种设计模式，主要有链模式、单例模式、组合模式等，同时还使用了Java反射。除了学习爬虫技术，这对学习设计模式和Java反射机制也是一个不错的案例。

4. 一些抓取结果展示收起

java 网络爬虫怎么实现？

1、在打开的ie浏览器窗口右上方点击齿轮图标，选择“Internet选项”，如下图所示：

2、在打开的Internet选项窗口中，切换到安全栏，在安全选卡中点击“自定义级别”，如下图所示：

3、在“安全设置-Internet 区域”界面找到“Java 小程序脚本”、“活动脚本”，并将这两个选项都选择为“禁用”，然后点击确定,如下图所示：

如何使用Java语言实现一个网页爬虫

Java开源Web爬虫

Heritrix

Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

更多Heritrix信息

WebSPHINX

WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

更多WebSPHINX信息

WebLech

WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

Java网络爬虫怎么实现？

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

以下是一个使用java实现的简单爬虫核心代码：

public void crawl() throws Throwable {

while (continueCrawling()) {

CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL

if (url != null) {

printCrawlInfo();

String content = getContent(url); //获取URL的文本信息

//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理

if (isContentRelevant(content, this.regexpSearchPattern)) {

saveContent(url, content); //保存网页至本地

//获取网页内容中的链接，并放入待爬取队列中

Collection urlStrings = extractUrls(content, url);

addUrlsToUrlQueue(url, urlStrings);

} else {

System.out.println(url + " is not relevant ignoring ...");

}

//延时防止被对方屏蔽

Thread.sleep(this.delayBetweenUrls);

}

closeOutputStream();

}

private CrawlerUrl getNextUrl() throws Throwable {

CrawlerUrl nextUrl = null;

while ((nextUrl == null) (!urlQueue.isEmpty())) {

CrawlerUrl crawlerUrl = this.urlQueue.remove();

//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取

//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap

//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免

if (doWeHavePermissionToVisit(crawlerUrl)

(!isUrlAlreadyVisited(crawlerUrl))

isDepthAcceptable(crawlerUrl)) {

nextUrl = crawlerUrl;

// System.out.println("Next url to be visited is " + nextUrl);

}

return nextUrl;

}

private String getContent(CrawlerUrl url) throws Throwable {

//HttpClient4.1的调用与之前的方式不同

HttpClient client = new DefaultHttpClient();

HttpGet httpGet = new HttpGet(url.getUrlString());

StringBuffer strBuf = new StringBuffer();

HttpResponse response = client.execute(httpGet);

if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {

HttpEntity entity = response.getEntity();

if (entity != null) {

BufferedReader reader = new BufferedReader(

new InputStreamReader(entity.getContent(), "UTF-8"));

String line = null;

if (entity.getContentLength() 0) {

strBuf = new StringBuffer((int) entity.getContentLength());

while ((line = reader.readLine()) != null) {

strBuf.append(line);

}

if (entity != null) {

nsumeContent();

}

//将url标记为已访问

markUrlAsVisited(url);

return strBuf.toString();

}

public static boolean isContentRelevant(String content,

Pattern regexpPattern) {

boolean retValue = false;

if (content != null) {

//是否符合正则表达式的条件

Matcher m = regexpPattern.matcher(content.toLowerCase());

retValue = m.find();

}

return retValue;

}

public List extractUrls(String text, CrawlerUrl crawlerUrl) {

Map urlMap = new HashMap();

extractHttpUrls(urlMap, text);

extractRelativeUrls(urlMap, text, crawlerUrl);

return new ArrayList(urlMap.keySet());

}

private void extractHttpUrls(Map urlMap, String text) {

Matcher m = (text);

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href="");

for (String term : terms) {

// System.out.println("Term = " + term);

if (term.startsWith("http")) {

int index = term.indexOf(""");

if (index 0) {

term = term.substring(0, index);

}

urlMap.put(term, term);

System.out.println("Hyperlink: " + term);

}

private void extractRelativeUrls(Map urlMap, String text,

CrawlerUrl crawlerUrl) {

Matcher m = relativeRegexp.matcher(text);

URL textURL = crawlerUrl.getURL();

String host = textURL.getHost();

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href="");

for (String term : terms) {

if (term.startsWith("/")) {

int index = term.indexOf(""");

if (index 0) {

term = term.substring(0, index);

}

String s = //" + host + term;

urlMap.put(s, s);

System.out.println("Relative url: " + s);

}

public static void main(String[] args) {

try {

String url = "";

Queue urlQueue = new LinkedList();

String regexp = "java";

urlQueue.add(new CrawlerUrl(url, 0));

NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,

regexp);

// boolean allowCrawl = crawler.areWeAllowedToVisit(url);

// System.out.println("Allowed to crawl: " + url + " " +

// allowCrawl);

crawler.crawl();

} catch (Throwable t) {

System.out.println(t.toString());

t.printStackTrace();

}

网络爬虫解析网页怎样用java代码实现

爬虫的原理其实就是获取到网页内容，然后对其进行解析。只不过获取的网页、解析内容的方式多种多样而已。

你可以简单的使用httpclient发送get/post请求，获取结果，然后使用截取字符串、正则表达式获取想要的内容。

或者使用像Jsoup/crawler4j等这些已经封装好的类库，更方便的爬取信息。