首页 > 编程知识 正文

使用python爬取数据的简单介绍

时间:2023-12-27 22:26:03 阅读:323489 作者:NOPN

本文目录一览:

怎样用python爬取疫情数据

import requests

from bs4 import BeautifulSoup

import re

import json

# 1.发送请求,获取疫情首页(数据来源于丁香园)

response = requests.get('')

home_page = response.content.decode()

# 2.从疫情首页提取最近一日数据

soup = BeautifulSoup(home_page, 'lxml')

script = soup.find(id='getAreaStat')

text = script.string

# 3.提取数据获取json格式数据

json_str = re.findall(r'[.+]', text)[0]

# 4.把json格式转换为python类型

last_day_corona_virus = json.loads(json_str)

# 5.以json格式保存最近一日数据

with open('data/last_day_coronavirus.json', 'w') as fp:

json.dump(last_day_corona_virus, fp, ensure_ascii=False)

python爬虫可以做什么

1、收集数据

Python爬虫程序可用于收集数据,这是最直接和最常用的方法。由于爬虫程序是一个程序,程序运行得非常快,不会因为重复的事情而感到疲倦,因此使用爬虫程序获取大量数据变得非常简单、快速。

2、数据储存

Python爬虫可以将从各个网站收集的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。注意:搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权限很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

3、网页预处理

Python爬虫可以将爬虫抓取回来的页面,进行各种步骤的预处理。比如提取文字、中文分词、消除噪音、索引处理、特殊文字处理等。

4、提供检索服务、网站排名

Python爬虫在对信息进行组织和处理之后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。同时可以根据页面的PageRank

值来进行网站排名,这样Rank值高的网站在搜索结果中会排名较前,当然也可以直接使用Money购买搜索引擎网站排名。

5、科学研究

在线人类行为、在线社群演化、人类动力学研究、计量社会学、复杂网络、数据挖掘等领域的实证研究都需要大量数据,Python爬虫是收集相关数据的利器。

python爬虫---爬取LOL云顶之弈数据

本来是想爬取之后作最佳羁绊组合推算,但是遇到知识点无法消化(知识图谱),所以暂时先不组合了,实力有限

库的安装

1.requests  #爬取棋子数据

2.json  #棋子数据为js动态,需使用json解析

3.BeautifulSoup

实战前先新建个lol文件夹作为工作目录,并创建子目录data,用于存放数据。

1.爬取数据,新建个py文件,用于爬取云顶数据,命名为data.py

1.1定义个req函数,方便读取。//需设定编码格式,否则会出现乱码

def Re_data(url):

re = requests.get(url)

re.encoding = 'gbk'

data = json.loads(re.text)

return data['data']

1.2定义个Get函数,用于读取数据并使用保存函数进行保存数据,保存格式为json。

def Get_data():

# 获取数据并保存至data目录

base_url = ''

chess = Re_data(base_url + 'chess.js')

race = Re_data(base_url + 'race.js')

job = Re_data(base_url + 'job.js')

equip = Re_data(base_url + 'equip.js')

Save_data(chess,race,job,equip)

1.3定义save函数实现读取的数据进行文件保存,保存目录为工作目录下的data文件夹。

def Save_data(t_chess,t_race,t_job,t_equip):

with open('./data/chess.json','w') as f:

json.dump(t_chess,f,indent='t')

with open('./data/race.json','w') as f:

json.dump(t_race,f,indent='t')

with open('./data/job.json','w') as f:

json.dump(t_job,f,indent='t')

with open('./data/equip.json','w') as f:

json.dump(t_equip,f,indent='t')

1.4定义主函数main跑起来

if __name__ == '__main__':

start = time.time()

Get_data()

print('运行时间:' + str(time.time() - start) + '秒')

至此,数据爬取完成。

2.种族和职业进行组合。

2.1未完成 //未完成,使用穷举方法进行组合会出现内存不够导致组合失败(for循环嵌套导致数组内存超限)

//待学习,使用知识图谱建立组合优选,可参考:

期间遇到的问题:

1.爬取棋子数据时为动态js加载,需通过json模块的loads方法获取

2.3层for循环嵌套数据量大,导致计算失败,需优化计算方法。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。