关于pythonjson采集的信息

本文目录一览：

1、python3 如果取json内容,谢谢
2、【Python】浅谈python中的json
3、如何在scrapy框架下用python爬取json文件
4、Python如何从.json文件中获取数据？
5、如何用python读取json里面的值啊
6、用python怎么提取这种json数据？

python3 如果取json内容,谢谢

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯(包括C、C++、Java、JavaScript、Perl、Python等)。这些特性使JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成(一般用于提升网络传输速率)。

JSON在python中分别由list和dict组成。

这是用于序列化的两个模块：

json: 用于字符串和python数据类型间进行转换

pickle：用于python特有的类型和python的数据类型间进行转换

Json模块提供了四个功能：dumps、dump、loads、load

pickle模块提供了四个功能：dumps、dump、loads、load

json dumps把数据类型转换成字符串 dump把数据类型转换成字符串并存储在文件中 loads把字符串转换成数据类型 load把文件打开从字符串转换成数据类型

json是可以在不同语言之间交换数据的，而pickle只在python之间使用。json只能序列化最基本的数据类型，josn只能把常用的数据类型序列化（列表、字典、列表、字符串、数字、），比如日期格式、类对象！josn就不行了。而pickle可以序列化所有的数据类型，包括类，函数都可以序列化。

【Python】浅谈python中的json

一前言

最近一直在做开发相关的工作--基于Django的web 平台，其中需要从model层传输数据到view 层做数据展示或者做业务逻辑处理。我们采用通用的Json格式--Json(JavaScript Object Notation) 是一种轻量级的数据交换格式，易于阅读和程序解析。

二认识Json

2.1 Json 结构

常见的Json格式为 “名称/值”对的集合,其中值可以是对象，列表，字典，字符串等等。比如

backup_data = {"back_to_host": "dbbk0",

"ip_address": "10.10.20.3",

"host_name": "rac4",

"port": 3306}

2.2 使用Json

Python的Json模块序列化与反序列化的过程分别是编码和解码。这两个过程涉及到两组不同的函数

编码把一个Python对象编码转换成Json字符串，json.dumps(data)/json.dump(data,file_handler)

解码把Json格式字符串解码转换成Python对象，json.loads(data)/json.load(file_handler)

在python中要使用Json模块做相关操作，必须先导入:

import Json

2.3 主要函数

编码函数主要有 json.dumps(data)/json.dump(data,file_handler)

json.dumps()的参数是将python对象转换为字符串，如使用json.dumps序列化的对象json_dumps=json.dumps({'a':1, 'b':2}) ，json_dumps='{"b": 2, "a": 1}'

json.dump 是将内置类型序列化为json对象后写入文件。

解码函数主要由json.loads(data)/json.load(file_handler)

json.loads的参数是内存对象，把Json格式字符串解码转换成Python对象,json_loads=json.loads(d_json) #{ b": 2, "a": 1}，使用load重新反序列化为dict

json.load()的参数针对文件句柄，比如本地有一个文件/tmp/test.json json_load=json.load(open('/tmp/test.json'))

具体案例参考如下:

In [3]: data={"back_to_host": "rac1",

...: "ip_address": "10.215.20.3",

...: "host_name": "rac3",

...: "port": 3306}

In [7]: json_str=json.dumps(data)

In [8]: print json_str

{"ip_address": "10.215.20.3", "back_to_host": "rac1", "host_name": "rac3", "port": 3306}

In [9]: json_loads=json.load(json_str)

---------------------------------------------------------------------------

AttributeError Traceback (most recent call last)

ipython-input-9-180506f16431 in module()

---- 1 json_loads=json.load(json_str)

/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/json/__init__.pyc in load(fp, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)

284

285 ""

注意从上面的报错信息来看 json.loads 传参是字符串类型，并不是文件句柄，没有 read()属性。

In [10]: json_loads=json.loads(json_str)

In [11]: print json_loads

{u'back_to_host': u'rac1', u'ip_address': u'10.215.20.3', u'host_name': u'rac3', u'port': 3306}

In [12]: type(json_loads)

Out[12]: dict

In [13]: type(json_str)

Out[13]: str

利用dump 将数据写入 dump.json

In [17]: with open('/tmp/dump.json','w') as f:

...: json.dump(json_str,f)

...:

yangyiDBA:~ yangyi$ cat /tmp/dump.json

"{"ip_address": "10.10.20.3", "back_to_host": "rac1", "host_name": "rac3", "port": 3306}"

yangyiDBA:~ yangyi$

利用json.load 将dump.sjon的数据读出来并赋值给 data

In [18]: with open('/tmp/dump.json','r') as f:

...: data=json.load(f)

...:

In [19]: print data

{"ip_address": "10.10.20.3", "back_to_host": "rac1", "host_name": "rac3", "port": 3306}

三小结

本文算是一篇学习笔记，主要对比了json.loads/json.load , json.dumps/ json.dump 的使用差异，方便以后更好的使用json 。

以上为本次分享内容，感谢观看。

如何在scrapy框架下用python爬取json文件

生成Request的时候与一般的网页是相同的，提交Request后scrapy就会下载相应的网页生成Response，这时只用解析response.body按照解析json的方法就可以提取数据了。代码示例如下（以京东为例，其中的parse_phone_price和parse_commnets是通过json提取的，省略部分代码）：

# -*- coding: utf-8 -*-

from scrapy.spiders import Spider, CrawlSpider, Rule

from scrapy.linkextractors import LinkExtractor

from jdcom.items import JdPhoneCommentItem, JdPhoneItem

from scrapy import Request

from datetime import datetime

import json

import logging

import re

logger = logging.getLogger(__name__)

class JdPhoneSpider(CrawlSpider):

name = "jdPhoneSpider"

start_urls = [""]

rules = (

Rule(

LinkExtractor(allow=r"list.html?cat=9987,653,655page=d+trans=1JL=6_0_0"),

callback="parse_phone_url",

follow=True,

)

def parse_phone_url(self, response):

hrefs = response.xpath("//div[@id='plist']/ul/li/div/div[@class='p-name']/a/@href").extract()

phoneIDs = []

for href in hrefs:

phoneID = href[14:-5]

phoneIDs.append(phoneID)

commentsUrl = "" % phoneID

yield Request(commentsUrl, callback=self.parse_commnets)

def parse_phone_price(self, response):

phoneID = response.meta['phoneID']

meta = response.meta

priceStr = response.body.decode("gbk", "ignore")

priceJson = json.loads(priceStr)

price = float(priceJson[0]["p"])

meta['price'] = price

phoneUrl = "" % phoneID

yield Request(phoneUrl, callback=self.parse_phone_info, meta=meta)

def parse_phone_info(self, response):

pass

def parse_commnets(self, response):

commentsItem = JdPhoneCommentItem()

commentsStr = response.body.decode("gbk", "ignore")

commentsJson = json.loads(commentsStr)

comments = commentsJson['comments']

for comment in comments:

commentsItem['commentId'] = comment['id']

commentsItem['guid'] = comment['guid']

commentsItem['content'] = comment['content']

commentsItem['referenceId'] = comment['referenceId']

# 2016-09-19 13:52:49 %Y-%m-%d %H:%M:%S

datetime.strptime(comment['referenceTime'], "%Y-%m-%d %H:%M:%S")

commentsItem['referenceTime'] = datetime.strptime(comment['referenceTime'], "%Y-%m-%d %H:%M:%S")

commentsItem['referenceName'] = comment['referenceName']

commentsItem['userProvince'] = comment['userProvince']

# commentsItem['userRegisterTime'] = datetime.strptime(comment['userRegisterTime'], "%Y-%m-%d %H:%M:%S")

commentsItem['userRegisterTime'] = comment.get('userRegisterTime')

commentsItem['nickname'] = comment['nickname']

commentsItem['userLevelName'] = comment['userLevelName']

commentsItem['userClientShow'] = comment['userClientShow']

commentsItem['productColor'] = comment['productColor']

# commentsItem['productSize'] = comment['productSize']

commentsItem['productSize'] = comment.get("productSize")

commentsItem['afterDays'] = int(comment['days'])

images = comment.get("images")

images_urls = ""

if images:

for image in images:

images_urls = image["imgUrl"] + ";"

commentsItem['imagesUrl'] = images_urls

yield commentsItem

commentCount = commentsJson["productCommentSummary"]["commentCount"]

goodCommentsCount = commentsJson["productCommentSummary"]["goodCount"]

goodCommentsRate = commentsJson["productCommentSummary"]["goodRate"]

generalCommentsCount = commentsJson["productCommentSummary"]["generalCount"]

generalCommentsRate = commentsJson["productCommentSummary"]["generalRate"]

poorCommentsCount = commentsJson["productCommentSummary"]["poorCount"]

poorCommentsRate = commentsJson["productCommentSummary"]["poorRate"]

phoneID = commentsJson["productCommentSummary"]["productId"]

priceUrl = "" % phoneID

meta = {

"phoneID": phoneID,

"commentCount": commentCount,

"goodCommentsCount": goodCommentsCount,

"goodCommentsRate": goodCommentsRate,

"generalCommentsCount": generalCommentsCount,

"generalCommentsRate": generalCommentsRate,

"poorCommentsCount": poorCommentsCount,

"poorCommentsRate": poorCommentsRate,

}

yield Request(priceUrl, callback=self.parse_phone_price, meta=meta)

pageNum = commentCount / 10 + 1

for i in range(pageNum):

commentsUrl = "" % (phoneID, i)

yield Request(commentsUrl, callback=self.parse_commnets)

Python如何从.json文件中获取数据？

json是一个文本数据，读取进Python以后，可直接用eval函数解析文本成一个字典。或者可以用py自带的json包。json.load 或者json.loads方法，前面那个可以直接读文本文件，后面那个是读取字符串的。

如何用python读取json里面的值啊

1、首先需要在桌面新建‘json.txt’文件，内容为jsonline格式。

2、打开Python开发工具IDLE,新建‘json.py’文件，并按照如图所示书写代码。

3、F5运行程序，Shell打印出json文本信息。

4、这是一次性读取所有内容，如果文件很大的情况，出于性能考虑要分批读取内容，这样要用到yield生成器，改写lines()函数如下，注意yield一定要写在with里，这样才能每次从上一次读取的位置继续读取。

5、继续写程序入口函数，这里要注意readlines返回的是一个列表，要读取里面的内容，要再做一个循环来遍历。

6、F5运行程序，Shell打印出json文本信息，这个利用生成器方式读取的方式经常处理较大的文件。

用python怎么提取这种json数据？

python自带了json库可以解析成dict

如果结合requests库

resp_dict = requests.get(url).json()