首页 > 编程知识 正文

python爬虫代码简单示例,数据爬虫python实例

时间:2023-05-04 13:13:45 阅读:59804 作者:3256

爬行动物的本质是打开web源代码进行匹配检索,得到检索结果。

/*

*取得

*将正规规则封装为对象。

*patternp=pattern.compile(a*b );

//通过正则对象的matcher方法字符串进行关联。 获取处理字符串的匹配者对象Matcher。

*matcherm=p.matcher(aaaab );

在Matcher匹配器对象的方法中处理字符串。

* boolean b=m.matches (;

*/

package com.js.ai.modules.point wall.test xfz;

import java.io.BufferedReader;

import java.io.FileReader;

import java.io.IOException;

import Java.io.input streamreader;

import Java.net.malformedurlexception;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

公共类spider {

公共静态列表获取工具() throws IOException{ )。

//1,读取源文件。

URL URL=newurl (http://www.cn blogs.com/Renyi-fan/p/6896901.html );

bufferedreaderbufr=newbufferedreader (newinputstreamreader (URL.open stream () );

//2,对读取的数据进行规则的匹配。 从那里获取符合规则的数据。

stringmail_regex='\w@w((.w ) ) (w );

列表列表=new ArrayList (;

patternp=pattern.com pile (mail _ regex );

字符串行=null;

wile((line=bufr.readline ) )!=空) {

matcherm=p.matcher(line;

wile(m.find ) ) }

//3,将符合规则的数据保存到收藏中。

list.add(m.group ) );

}

}

返回列表;

}

公共静态列表getmails () throws IOException{ )。

//1,读取源文件。

bufferedreaderbufr=newbufferedreader (new filereader (' c :\ mail.html ) );

//2,对读取的数据进行规则的匹配。 从那里获取符合规则的数据。

stringmail_regex='\w@w((.w ) ) (w );

列表列表=new ArrayList (;

patternp=pattern.com pile (mail _ regex );

字符串行=null;

wile((line=bufr.readline ) )!=空) {

matcherm=p.matcher(line;

wile(m.find () ) ) ) ) ) )。

//3,将符合规则的数据保存到收藏中。

list.add(m.group ) );

}

}

返回列表;

}

publicstaticvoidmain (字符串[ ] args ) throws IOException { )。

//List list=getMails (;

//for (字符串邮件:列表) {

//system.out.println(mail );

//}

列表列表=getmailsbyweb (;

for (字符串邮件:列表) {

system.out.println (邮件;

}

}

}

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。