python数据提取记录一（python 获取数据）

本文目录一览：

1、如何提取Python数据
2、Python爬虫常用的几种数据提取方式
3、python怎么提取一组数据中差值为10以内的数
4、python中如何提取一组数据中的第一列数据
5、如何用Python爬取数据？

如何提取Python数据

首先是准备工作，导入需要使用的库，读取并创建数据表取名为loandata。

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))

设置索引字段

在开始提取数据前，先将member_id列设置为索引字段。然后开始提取数据。

Loandata = loandata.set_index('member_id')

按行提取信息

第一步是按行提取数据，例如提取某个用户的信息。下面使用ix函数对member_id为1303503的用户信息进行了提取。

loandata.ix[1303503]

按列提取信息

第二步是按列提取数据，例如提取用户工作年限列的所有信息，下面是具体的代码和提取结果，显示了所有用户的工作年龄信息。

loandata.ix[:,'emp_length']

按行与列提取信息

第三步是按行和列提取信息，把前面两部的查询条件放在一起，查询特定用户的特定信息，下面是查询member_id为1303503的用户的emp_length信息。

loandata.ix[1303503,'emp_length']

在前面的基础上继续增加条件，增加一行同时查询两个特定用户的贷款金额信息。具体代码和查询结果如下。结果中分别列出了两个用户的代码金额。

loandata.ix[[1303503,1298717],'loan_amnt']

在前面的代码后增加sum函数，对结果进行求和，同样是查询两个特定用户的贷款进行，下面的结果中直接给出了贷款金额的汇总值。

loandata.ix[[1303503,1298717],'loan_amnt'].sum()

除了增加行的查询条件以外，还可以增加列的查询条件，下面的代码中查询了一个特定用户的贷款金额和年收入情况，结果中分别显示了这两个字段的结果。

loandata.ix[1303503,['loan_amnt','annual_inc']]

多个列的查询也可以进行求和计算，在前面的代码后增加sum函数，对这个用户的贷款金额和年收入两个字段求和，并显示出结果。

loandata.ix[1303503,['loan_amnt','annual_inc']].sum()

Python爬虫常用的几种数据提取方式

数据解析方式

- 正则

- xpath

- bs4

数据解析的原理：

标签的定位

提取标签中存储的文本数据或者标签属性中存储的数据

python怎么提取一组数据中差值为10以内的数

python提取一组数据中差值为10以内的数：潘森提取速度入账数据，可以将数组读取出来，然后一个一个的进行提取，按照数组的几维来进行读取。

a=[10, 8, 2, 45, 69, 38, 11, 15] #假设该列表为需要输入的一组数，a.sort(reverse = True) #首先对这组数进行从大到小的排序。

print a #输出排序结果。

min = a[0] #令min变量记录该列表中最大的值。

for i in range( len(a) -1 ): #i用来控制列表下标, 元素个数-1为了防止下面的相减越界。

if a[i] - a[i+1] min: #当前一个数减后一个小于当前min里的值时, 更新最小值。

可移植性：

由于它的开源本质，Python已经被移植在许多平台上（经过改动使它能够工作在不同平台上）。这些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/39。

、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基于linux开发的android平台。

一个用编译性语言比如C或C++写的程序可以从源文件（即C或C++语言）转换到一个你的计算机使用的语言（二进制代码，即0和1）。这个过程通过编译器和不同的标记、选项完成。

python中如何提取一组数据中的第一列数据

概述

直接提取会报错，把array数组转换成list，即可提取，使用numpy转换

步骤详解

1、直接提取尝试：

group=[[1,2],[2,3],[3,4]]

#提取第一列元素

print(group[:,1])

#Out:TypeError: list indices must be integers or slices, not tuple

2、使用numpy转换：

import numpy as np

group=[[1,2],[2,3],[3,4]]

#numpy转化

ar=np.array(group)

print(ar[:,1])

#Out:[2 3 4]

拓展内容

numpy详解

Numpy对象是数组，称为ndarray

维度(dimensions)称作轴(axes),轴的个数叫做秩(rank)。注：有几级中括号就有几个维度

一、ndarray.attrs:

ndarray.ndim 秩

ndarray.shape 例如一个2排3列的矩阵，它的shape属性是(2,3)

ndarray.size 数组元素的总个数

ndarray.dtype 元素类型，NumPy提供自己的数据类型

ndarray.itemsize 数组中每个元素的字节大小

二、数组创建函数：

array

asarray将输入转换成ndarray

arange

ones

zeros

empty 只分配内存空间不填充任何值

eye 创建N*N单位矩阵(对角线为1)

三、数组和标量之间的运算

numpy数组的一个特点，不用编写循环就可对数据执行批量运算，这通常称作矢量化(vectorization)。

四、基本的索引和切片

numpy数组的索引是一个内容丰富的主题，因为选取数据子集或单个元素的方式有很多。这里我仅详细介绍常用的方法，对于高级功能的方式我列举名称，读者可以等到要用的时候自行查阅资料。

如何用Python爬取数据？

方法/步骤

在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。

请点击输入图片描述

然后在python的编辑器中输入import选项，提供这两个库的服务

请点击输入图片描述

urllib主要负责抓取网页的数据，单纯的抓取网页数据其实很简单，输入如图所示的命令，后面带链接即可。

请点击输入图片描述

抓取下来了，还不算，必须要进行读取，否则无效。

请点击输入图片描述

接下来就是抓码了，不转码是完成不了保存的，将读取的函数read转码。再随便标记一个比如XA。

请点击输入图片描述

最后再输入三句，第一句的意思是新建一个空白的word文档。

第二句的意思是在文档中添加正文段落，将变量XA抓取下来的东西导进去。

第三句的意思是保存文档docx，名字在括号里面。

请点击输入图片描述

这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。