首页 > 编程知识 正文

python数据提取记录一(python 获取数据)

时间:2023-12-11 12:54:44 阅读:314483 作者:GRQT

本文目录一览:

如何提取Python数据

首先是准备工作,导入需要使用的库,读取并创建数据表取名为loandata。

?

1

2

3

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))

设置索引字段

在开始提取数据前,先将member_id列设置为索引字段。然后开始提取数据。

?

1

Loandata = loandata.set_index('member_id')

按行提取信息

第一步是按行提取数据,例如提取某个用户的信息。下面使用ix函数对member_id为1303503的用户信息进行了提取。

?

1

loandata.ix[1303503]

按列提取信息

第二步是按列提取数据,例如提取用户工作年限列的所有信息,下面是具体的代码和提取结果,显示了所有用户的工作年龄信息。

?

1

loandata.ix[:,'emp_length']

按行与列提取信息

第三步是按行和列提取信息,把前面两部的查询条件放在一起,查询特定用户的特定信息,下面是查询member_id为1303503的用户的emp_length信息。

?

1

loandata.ix[1303503,'emp_length']

在前面的基础上继续增加条件,增加一行同时查询两个特定用户的贷款金额信息。具体代码和查询结果如下。结果中分别列出了两个用户的代码金额。

?

1

loandata.ix[[1303503,1298717],'loan_amnt']

在前面的代码后增加sum函数,对结果进行求和,同样是查询两个特定用户的贷款进行,下面的结果中直接给出了贷款金额的汇总值。

?

1

loandata.ix[[1303503,1298717],'loan_amnt'].sum()

除了增加行的查询条件以外,还可以增加列的查询条件,下面的代码中查询了一个特定用户的贷款金额和年收入情况,结果中分别显示了这两个字段的结果。

?

1

loandata.ix[1303503,['loan_amnt','annual_inc']]

多个列的查询也可以进行求和计算,在前面的代码后增加sum函数,对这个用户的贷款金额和年收入两个字段求和,并显示出结果。

?

1

loandata.ix[1303503,['loan_amnt','annual_inc']].sum()

Python爬虫常用的几种数据提取方式

数据解析方式

- 正则

- xpath

- bs4

数据解析的原理:

标签的定位

提取标签中存储的文本数据或者标签属性中存储的数据

python怎么提取一组数据中差值为10以内的数

python提取一组数据中差值为10以内的数:潘森提取速度入账数据,可以将数组读取出来,然后一个一个的进行提取,按照数组的几维来进行读取。

a=[10, 8, 2, 45, 69, 38, 11, 15] #假设该列表为需要输入的一组数,a.sort(reverse = True) #首先对这组数进行从大到小的排序。

print a #输出排序结果。

min = a[0] #令min变量记录该列表中最大的值。

for i in range( len(a) -1 ): #i用来控制列表下标, 元素个数-1为了防止下面的相减越界。

if a[i] - a[i+1] min: #当前一个数减后一个小于当前min里的值时, 更新最小值。

可移植性:

由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。这些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/39。

、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基于linux开发的android平台。

一个用编译性语言比如C或C++写的程序可以从源文件(即C或C++语言)转换到一个你的计算机使用的语言(二进制代码,即0和1)。这个过程通过编译器和不同的标记、选项完成。

python中如何提取一组数据中的第一列数据

概述

直接提取会报错,把array数组转换成list,即可提取,使用numpy转换

步骤详解

1、直接提取尝试:

group=[[1,2],[2,3],[3,4]]

#提取第一列元素

print(group[:,1])

#Out:TypeError: list indices must be integers or slices, not tuple

2、使用numpy转换:

import numpy as np

group=[[1,2],[2,3],[3,4]]

#numpy转化

ar=np.array(group)

print(ar[:,1])

#Out:[2 3 4]

拓展内容

numpy详解

Numpy对象是数组,称为ndarray 

维度(dimensions)称作轴(axes),轴的个数叫做秩(rank)。注:有几级中括号就有几个维度

一、ndarray.attrs:

ndarray.ndim 秩

ndarray.shape 例如一个2排3列的矩阵,它的shape属性是(2,3)

ndarray.size 数组元素的总个数

ndarray.dtype 元素类型,NumPy提供自己的数据类型

ndarray.itemsize 数组中每个元素的字节大小

二、数组创建函数:

array

asarray将输入转换成ndarray

arange

ones

zeros

empty 只分配内存空间不填充任何值

eye 创建N*N单位矩阵(对角线为1)

三、数组和标量之间的运算

numpy数组的一个特点,不用编写循环就可对数据执行批量运算,这通常称作矢量化(vectorization)。

四、基本的索引和切片

numpy数组的索引是一个内容丰富的主题,因为选取数据子集或单个元素的方式有很多。这里我仅详细介绍常用的方法,对于高级功能的方式我列举名称,读者可以等到要用的时候自行查阅资料。

如何用Python爬取数据?

方法/步骤

在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx。

请点击输入图片描述

然后在python的编辑器中输入import选项,提供这两个库的服务

请点击输入图片描述

urllib主要负责抓取网页的数据,单纯的抓取网页数据其实很简单,输入如图所示的命令,后面带链接即可。

请点击输入图片描述

抓取下来了,还不算,必须要进行读取,否则无效。

请点击输入图片描述

5

接下来就是抓码了,不转码是完成不了保存的,将读取的函数read转码。再随便标记一个比如XA。

请点击输入图片描述

6

最后再输入三句,第一句的意思是新建一个空白的word文档。

第二句的意思是在文档中添加正文段落,将变量XA抓取下来的东西导进去。

第三句的意思是保存文档docx,名字在括号里面。

请点击输入图片描述

7

这个爬下来的是源代码,如果还需要筛选的话需要自己去添加各种正则表达式。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。