导入请求、BeautifulSoup库。
一,
导入请求
使用r=requests.get (http://www.Baidu.com) get函数打开百度
返回print(r ) #状态
r.encoding='utf-8'#可以输出中文字符
打印(r.text ) )。
二、
导入请求
来自bs4导入基础软件
r=requests.get (http://www.Baidu.com) )。
返回print(r ) #状态
r.encoding='utf-8 '
soup=beautifulsoup(r.text ) #soup是beautifulsoup的对象
是类型(soup )
2 .复制并粘贴需要攀登网页的网址。
3 .从网络获取web内容(在滚动过程中添加头部信息),
如果有爬虫防护机制,则需要用header进行伪装(header .如何查找网页、右键单击、如何查看源代码
2 .网页、右键、网络、名称、标题)
4 .分析网页结构,从中抓住必要内容:1.定义函数
2 .找到所有tr标签
3 .在每个tr标签中查找td标签
4 .获取TD标签的信息
筛选内容,去除无关内容。
5 .利用数据结构展示或进一步处理数据,使数据展示更加清晰。