首页 > 编程知识 正文

python爬取网页内容,爬虫python代码

时间:2023-05-06 12:47:19 阅读:11239 作者:1511

环境python3.8.2外壳

也可以使用PyCharm

另一方面,网页文本的基本步骤1,请求所需的网页,在requests中请求,如果还没有安装,打开cmd,输入以下命令进行安装

pip install requests通过requests.get(URL )请求网页信息, text可以获得网页的文本内容,但也有标签。

2、解析BeautifulSoup请求的网页内容,如果尚未安装,打开cmd,输入以下命令进行安装

pip安装beautiful soup 4可以通过beautiful soup (文本,‘lxml’)解析所请求的网页的文本。

注: texts是文本信息,lxml是解析器(安装参考),也可以使用html.parser解析器。

二、python代码from bs4 importbeautifulsoup # requests要求的HTML页面# from w3 lib.htmlimportremove _ tags _ with _ contentimportrequest请求到的网页的URL=' https://www.bequgexs.com/8/8154 303304.lxml ' con=requests.get (URL ) con.encoding=' utf-8 ' tetet result=beautiful soup (texts,' lxml ) html attrs={ ' class ' : ' bookname ' } } div _ ZJ=div1. find (' h1 ' ) print ) div_ZJ.text ) div2=result.find and print(div2) div _ NR=div2. text.replace ((xa0 ' * 4,(nn ) ) xace ' ' ) f=open ('奢侈夫第一章. doc ',mode encoding='utf-8 ' ) #a:之前保存爬网的数据在windows下,新文件的默认编码是在gbk之前utf-8f.write(div_NR ) # div _ NR )天才一秒钟就能记住本站的地址。 ((笔谈阁)、() ) )我是div_NR .无广告!' 、'')打印(div _ NR )结果

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。