java爬虫（java爬虫和python爬虫）

本文目录一览：

1、java爬虫异步加载数据怎么解决
2、java 网络爬虫怎么实现
3、java适合写爬虫吗？
4、java爬虫长时间无返回
5、java爬虫抓取指定数据
6、java爬虫代理如何实现

java爬虫异步加载数据怎么解决

给题主两种思路参考：

1、内置一个浏览器内核

内置浏览器就是在抓取的程序中，启动一个浏览器内核，使我们获取到 js 渲染后的页面，这样我们就跟采集静态页面一样了。这种工具常用的有以下三种： - Selenium - HtmlUnit - PhantomJs

这些工具都能帮助我们解决数据异步加载的问题，但是他们都存在缺陷，那就是效率不高而且不稳定。

2、反向解析法

什么是反向解析法呢？我们 js 渲染页面的数据是通过 Ajax 的方式从后端获取的，我们只需要找到对应的 Ajax 请求连接就 OK，这样我们就获取到了我们需要的数据，反向解析法的好处就是这种方式获取的数据都是 json 格式的数据，解析起来也比较方便，另一个好处就是相对页面来说，接口的变化概率更小。同样它有两个不足之处，一个是在 Ajax 时你需要有耐心有技巧，因为你需要在一大推请求中找到你想要的，另一个不足的地方就是对 JavaScript 渲染的页面束手无策。

java 网络爬虫怎么实现

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

以下是一个使用java实现的简单爬虫核心代码：

public void crawl() throws Throwable {

while (continueCrawling()) {

CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL

if (url != null) {

printCrawlInfo();

String content = getContent(url); //获取URL的文本信息

//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理

if (isContentRelevant(content, this.regexpSearchPattern)) {

saveContent(url, content); //保存网页至本地

//获取网页内容中的链接，并放入待爬取队列中

Collection urlStrings = extractUrls(content, url);

addUrlsToUrlQueue(url, urlStrings);

} else {

System.out.println(url + " is not relevant ignoring ...");

}

//延时防止被对方屏蔽

Thread.sleep(this.delayBetweenUrls);

}

closeOutputStream();

}

private CrawlerUrl getNextUrl() throws Throwable {

CrawlerUrl nextUrl = null;

while ((nextUrl == null) (!urlQueue.isEmpty())) {

CrawlerUrl crawlerUrl = this.urlQueue.remove();

//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取

//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap

//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免

if (doWeHavePermissionToVisit(crawlerUrl)

(!isUrlAlreadyVisited(crawlerUrl))

isDepthAcceptable(crawlerUrl)) {

nextUrl = crawlerUrl;

// System.out.println("Next url to be visited is " + nextUrl);

}

return nextUrl;

}

private String getContent(CrawlerUrl url) throws Throwable {

//HttpClient4.1的调用与之前的方式不同

HttpClient client = new DefaultHttpClient();

HttpGet httpGet = new HttpGet(url.getUrlString());

StringBuffer strBuf = new StringBuffer();

HttpResponse response = client.execute(httpGet);

if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {

HttpEntity entity = response.getEntity();

if (entity != null) {

BufferedReader reader = new BufferedReader(

new InputStreamReader(entity.getContent(), "UTF-8"));

String line = null;

if (entity.getContentLength() 0) {

strBuf = new StringBuffer((int) entity.getContentLength());

while ((line = reader.readLine()) != null) {

strBuf.append(line);

}

if (entity != null) {

nsumeContent();

}

//将url标记为已访问

markUrlAsVisited(url);

return strBuf.toString();

}

public static boolean isContentRelevant(String content,

Pattern regexpPattern) {

boolean retValue = false;

if (content != null) {

//是否符合正则表达式的条件

Matcher m = regexpPattern.matcher(content.toLowerCase());

retValue = m.find();

}

return retValue;

}

public List extractUrls(String text, CrawlerUrl crawlerUrl) {

Map urlMap = new HashMap();

extractHttpUrls(urlMap, text);

extractRelativeUrls(urlMap, text, crawlerUrl);

return new ArrayList(urlMap.keySet());

}

private void extractHttpUrls(Map urlMap, String text) {

Matcher m = (text);

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href="");

for (String term : terms) {

// System.out.println("Term = " + term);

if (term.startsWith("http")) {

int index = term.indexOf(""");

if (index 0) {

term = term.substring(0, index);

}

urlMap.put(term, term);

System.out.println("Hyperlink: " + term);

}

private void extractRelativeUrls(Map urlMap, String text,

CrawlerUrl crawlerUrl) {

Matcher m = relativeRegexp.matcher(text);

URL textURL = crawlerUrl.getURL();

String host = textURL.getHost();

while (m.find()) {

String url = m.group();

String[] terms = url.split("a href="");

for (String term : terms) {

if (term.startsWith("/")) {

int index = term.indexOf(""");

if (index 0) {

term = term.substring(0, index);

}

String s = //" + host + term;

urlMap.put(s, s);

System.out.println("Relative url: " + s);

}

public static void main(String[] args) {

try {

String url = "";

Queue urlQueue = new LinkedList();

String regexp = "java";

urlQueue.add(new CrawlerUrl(url, 0));

NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,

regexp);

// boolean allowCrawl = crawler.areWeAllowedToVisit(url);

// System.out.println("Allowed to crawl: " + url + " " +

// allowCrawl);

crawler.crawl();

} catch (Throwable t) {

System.out.println(t.toString());

t.printStackTrace();

}

java适合写爬虫吗？

JAVA也可以实现爬虫，比如jsoup包，一个非常方便解析html的工具呢。

不过相对来说，java语言笨重，稍微有些麻烦。

java爬虫长时间无返回

可能是代码异常。

写代码总是会出异常的，尤其是爬虫这类程序，无法确保每次请求都能稳定地返回统一的结果，比如反爬虫策略提升代理IP超时程序异常等等，处理好这些问题，才能保证爬虫程序持续地运行下去，反爬虫策略，超时设置网络总是不会一如既往的稳定如一，可能代理IP某个时间不稳定，也可能目标服务器某个时间不稳定，还有自身机器的网络也可能不稳定，如果不设置好超时，程序也不好跑下去。

java爬虫抓取指定数据

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

java爬虫代理如何实现

无论是使用java、Python爬取数据，都会出现IP被封的情况，所以就需要使用代理IP替我们操作。我一般会利用Java的HttpClient包，来加入动态代理功能，我使用的是芝麻HTTP代理，当然你也可以选择其他的代理提供商。

1、先声明一个代理类

2、声明一个HttpClient 对象，设置好超时时间

3、设置芝麻HTTP代理

4、测试当前的代理是否有用

5、得到服务器是否对我们进行屏蔽，如果返回的是SC_FORBIDDEN，代表被屏蔽的，那么我们就一个一个代理去试，也就是调用第四步的函数去判断当前的代理是否有用