首页 > 编程知识 正文

将爬虫数据存放到数据库中怎么操作,爬虫数据存入数据库

时间:2023-05-04 23:05:07 阅读:269439 作者:1363

爬虫获取的数据可以存放到本地,也可以直接存放的指定的数据库。

1、存放到本地中,pipeline文件代码:

import jsonclass DongguanPipeline(object): def __init__(self): self.filename = open("xxx.json", "wb") def process_item(self, item, spider): text = json.dumps(dict(item), ensure_ascii = False) + ",n" self.filename.write(text.encode("utf-8")) return item def close_spider(self, spider): self.filename.close()

2、存放到mongodb数据库中,pipeline文件代码:

import pymongofrom scrapy.conf import settingsclass DoubanPipeline(object): def __init__(self): host = settings["MONGODB_HOST"] port = settings["MONGODB_PORT"] dbname = settings["MONGODB_DBNAME"] sheetname= settings["MONGODB_SHEETNAME"] # 创建MONGODB数据库链接 client = pymongo.MongoClient(host = host, port = port) # 指定数据库 mydb = client[dbname] # 存放数据的数据库表名 self.sheet = mydb[sheetname] de一分快三技巧准确率100tname= settings["MONGODB_SHEETNAME"] # 创建MONGODB数据库链接 client = pymongo.MongoClient(host = host, port = port) # 指定数据库 mydb = client[dbname] # 存放数据的数据库表名 self.sheet = mydb[sheetname] def process_item(self, item, spider): data = dict(item) self.sheet.insert(data) return item

3、存放到mongodb数据库时,在setting文件中的配置

ITEM_PIPELINES = { 'douban.pipelines.DoubanPipeline': 300,} # MONGODB 主机名MONGODB_HOST = "127.0.0.1"# MONGODB 端口号MONGODB_PORT = 27017# 数据库名称MONGODB_DBNAME = "Douban"# 存放数据的表名称MONGODB_SHEETNAME = "doubanmovies"

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。