python库的解析,python里的库

本文目录一览：

1、Python 常用的标准库以及第三方库有哪些
2、【Python基础】python数据分析需要哪些库？
3、Python绘图之（1）Turtle库详解
4、Python解析库lxml与xpath用法总结
5、常用的python库有哪些
6、Python网页解析库：用requests-html爬取网页

Python 常用的标准库以及第三方库有哪些

推荐5个常用的Python标准库：

1、os：提供了不少与操作系统相关联的函数库

os包是Python与操作系统的接口。我们可以用os包来实现操作系统的许多功能，比如管理系统进程，改变当前路径，改变文件权限等。但要注意，os包是建立在操作系统的平台上的，许多功能在Windows系统上是无法实现的。另外，在使用os包中，要注意其中的有些功能已经被其他的包取代。

我们通过文件系统来管理磁盘上储存的文件。查找、删除、复制文件以及列出文件列表等都是常见的文件操作。这些功能通常可以在操作系统中看到，但现在可以通过Python标准库中的glob包、shutil包、os.path包以及os包的一些函数等，在Python内部实现。

2、sys：通常用于命令行参数的库

sys包被用于管理Python自身的运行环境。Python是一个解释器，也是一个运行在操作系统上的程序。我们可以用sys包来控制这一程序运行的许多参数，比如说Python运行所能占据的内存和CPU，Python所要扫描的路径等。另一个重要功能是和Python自己的命令行互动，从命令行读取命令和参数。

3、random：用于生成随机数的库

Python标准库中的random函数，可以生成随机浮点数、整数、字符串，甚至帮助你随机选择列表序列中的一个元素，打乱一组数据等。

4、math：提供了数学常数和数学函数

标准库中，Python定义了一些新的数字类型，以弥补之前的数字类型可能的不足。标准库还包含了random包，用于处理随机数相关的功能。math包补充了一些重要的数学常数和数学函数，比如pi、三角函数等等。

5、datetime：日期和时间的操作库

日期和时间的管理并不复杂，但容易犯错。Python的标准库中对日期和时间的管理颇为完善，你不仅可以进行日期时间的查询和变换，还可以对日期时间进行运算。通过这些标准库，还可以根据需要控制日期时间输出的文本格式

【Python基础】python数据分析需要哪些库？

1.Numpy库

是Python开源的数值计算扩展工具，提供了Python对多维数组的支持，能够支持高级的维度数组与矩阵运算。此外，针对数组运算也提供了大量的数学函数库，Numpy是大部分Python科学计算的基础，具有很多功能。

2.Pandas库

是一个基于Numpy的数据分析包，为了解决数据分析任务而创建的。Pandas中纳入了大量库和标准的数据模型，提供了高效地操作大型数据集所需要的函数和方法，使用户能快速便捷地处理数据。

3.Matplotlib库

是一个用在Python中绘制数组的2D图形库，虽然它起源于模仿MATLAB图形命令，但它独立于MATLAB，可以通过Pythonic和面向对象的方式使用，是Python中最出色的绘图库。主要用纯Python语言编写的，它大量使用Numpy和其他扩展代码，即使对大型数组也能提供良好的性能。

4.Seaborn库

是Python中基于Matplotlib的数据可视化工具，提供了很多高层封装的函数，帮助数据分析人员快速绘制美观的数据图形，从而避免了许多额外的参数配置问题。

5.NLTK库

被称为使用Python进行教学和计算语言学工作的最佳工具，以及用自然语言进行游戏的神奇图书馆。NLTK是一个领先的平台，用于构建使用人类语言数据的Python程序，它为超过50个语料库和词汇资源提供了易于使用的接口，还提供了一套文本处理库，用于分类、标记化、词干化、解析和语义推理、NLP库的包装器和一个活跃的讨论社区。

Python绘图之（1）Turtle库详解

Turtle库是Python语言中一个很流行的绘制图像的函数库，想象一个小乌龟，在一个横轴为x、纵轴为y的坐标系原点，(0,0)位置开始，它根据一组函数指令的控制，在这个平面坐标系中移动，从而在它爬行的路径上绘制了图形。

画布就是turtle为我们展开用于绘图区域，我们可以设置它的大小和初始位置。

设置画布大小

turtle.screensize(canvwidth=None, canvheight=None, bg=None)，参数分别为画布的宽(单位像素), 高, 背景颜色。

如：turtle.screensize(800,600, "green")

turtle.screensize() #返回默认大小(400, 300)

turtle.setup(width=0.5, height=0.75, startx=None, starty=None)，参数：width, height: 输入宽和高为整数时, 表示像素; 为小数时, 表示占据电脑屏幕的比例，(startx, starty): 这一坐标表示矩形窗口左上角顶点的位置, 如果为空,则窗口位于屏幕中心。

如：turtle.setup(width=0.6,height=0.6)

turtle.setup(width=800,height=800, startx=100, starty=100)

2.1 画笔的状态

在画布上，默认有一个坐标原点为画布中心的坐标轴，坐标原点上有一只面朝x轴正方向小乌龟。这里我们描述小乌龟时使用了两个词语：坐标原点(位置)，面朝x轴正方向(方向)， turtle绘图中，就是使用位置方向描述小乌龟(画笔)的状态。

2.2 画笔的属性

画笔(画笔的属性，颜色、画线的宽度等)

1) turtle.pensize()：设置画笔的宽度；

2) turtle.pencolor()：没有参数传入，返回当前画笔颜色，传入参数设置画笔颜色，可以是字符串如"green", "red",也可以是RGB 3元组。

3) turtle.speed(speed)：设置画笔移动速度，画笔绘制的速度范围[0,10]整数，数字越大越快。

2.3 绘图命令

操纵海龟绘图有着许多的命令，这些命令可以划分为3种：一种为运动命令，一种为画笔控制命令，还有一种是全局控制命令。

(1) 画笔运动命令

(2) 画笔控制命令

(3) 全局控制命令

(4) 其他命令

3. 命令详解

3.1 turtle.circle(radius, extent=None, steps=None)

描述：以给定半径画圆

参数：

radius(半径)：半径为正(负)，表示圆心在画笔的左边(右边)画圆；

extent(弧度) (optional)；

steps (optional) (做半径为radius的圆的内切正多边形，多边形边数为steps)。

举例:

circle(50) # 整圆;

circle(50,steps=3) # 三角形;

circle(120, 180) # 半圆

实例：

1、太阳花

2、五角星

3、时钟程序

Python解析库lxml与xpath用法总结

本文主要围绕以xpath和lxml库进行展开：

一、xpath 概念、xpath节点、xpath语法、xpath轴、xpath运算符

二、lxml的安装、lxml的使用、lxml案例

一、xpath

1.xpath概念

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航。XPath 包含一个标准函数库。XPath 是 XSLT 中的主要元素。XPath 是一个 W3C 标准。

2.xpath节点

xpath有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。

节点关系：父、子、兄弟、先辈、后辈。

3.xpath语法

xpath语法在W3c网站上有详细的介绍，这里截取部分知识，供大家学习。

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

XPath 通配符可用来选取未知的 XML 元素。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

通过在路径表达式中使用"|"运算符，您可以选取若干个路径。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

4.xpath 轴

轴可定义相对于当前节点的节点集。

5.xpath运算符

下面列出了可用在 XPath 表达式中的运算符：

好了，xpath的内容就这么多了。接下来我们要介绍一个神器lxml，他的速度很快，曾经一直是我使用beautifulsoup时最钟爱的解析器，没有之一，因为他的速度的确比其他的html.parser 和html5lib快了许多。

二、lxml

1.lxml安装

lxml 是一个xpath格式解析模块，安装很方便，直接pip install lxml 或者easy_install lxml即可。

2.lxml 使用

lxml提供了两种解析网页的方式，一种是你解析自己写的离线网页时，另一种则是解析线上网页。

导入包：

1.解析离线网页：

2.解析在线网页：

那么我们怎么获取这些标签和标签对应的属性值了，很简单，首先获取标签只需你这样做：

然后我们可以，比方说，你要获取a标签内的文本和它的属性href所对应的值，有两种方法，

1.表达式内获取

2.表达式外获取

这样就完成了获取，怎么样，是不是很简单了，哈哈哈。

下面再来lxml的解析规则：

3.lxml案例

为了偷懒，我决定还是采用urllib那篇文章的代码，哈哈哈，机智如我。

常用的python库有哪些

10个顶级且实用的python库

1、Dash

Dash是比较新的软件包，它是用纯python构建数据可视化app的理想选择，因此特别适合处理数据的任何人。Dash是Flask、Plotly.js和React.js的混合体。

2、Pygame

Pygame是SDL多媒体库的python装饰器，SDL是一个跨平台开发库，旨在提供对以下内容的低级接口：音频、键盘、鼠标、游戏杆、基于OpenGL和Direct3D的图形硬件。

Pygame具有高度的可移植性，几乎可以在所有平台和操作系统上运行。尽管它具有完善的游戏引擎，但您也可以使用此库直接从python脚本播放MP3文件。

3、Pillow

Pillow专门用于处理图像，您可以使用该库创建缩略图，在文件格式之间转换、旋转、应用滤镜、显示图像等等。如果您需要对许多图像执行批量操作，这是理想的选择。

4、Colorama

Colorama允许你在终端使用颜色，非常适合python脚本，文档简短而有趣，可以在Colorama PyPi页面上找到。

5、JmesPath

在python中使用JSON非常容易，因为JSON在python字典上的映射非常好。此外，python带有自己出色的json库，用于解析和创建JSON。对我来说，这是它最好的功能之一，如果我需要使用JSON，可以考虑使用python。

JmesPath使python处理JSON更加容易，它允许您明确地指定如何从JSON文档中提取元素。

6、Requests

Requests建立在世界上下载量最大的python库urllib3上，它令Web请求变得非常简单，功能强大且用途广泛。

Requests可以完成您能想到的所有高级工作，比如：认证，使用cookie，执行POST、PUT、DELETE等，使用自定义证书，使用会话Session、使用代理等。

7、Simplejson

python中的本地json模块有什么问题?没有!实际上，python的json是Simplejson。意思是：python采用了Simplejson的一个版本，并将其合并到每个发行版中，但是使用Simplejson具有一些优点：它适用于更多python版本、它比python随附的版本更新频率更高、它具有用C编写的部分，因此非常快速。

8、Emoji

Emoji库非常意思，但并非每个人都喜欢表情包，分析视角媒体数据时，Emoji包非常有用。

9、Python-dateutil

Python-dateutil模块提供了对标准datetime模块的强大扩展。我的经验是：常规的python日期时间功能在哪里结束，而Python-dateutil就出现了。

10、BeautifulSoup

如果您从网站上提取了一些HTML，则需要对其进行解析以获取实际所需的内容。BeautifulSoup是一个python库，用于从HTML和XML文件中提取数据。它提供了导航，搜索和修改解析树的简单方法。它非常强大，即使损坏了，也能够处理各种HTML，这是一个非常强大的功能。

它的一些主要功能：

①BeautifulSoup会自动将传入文档转换为Unicode，将传出文档转换为UTF-8，您无需考虑编码。

②BeautifulSoup位于流行的python解析器的顶部，使您可以尝试不同的解析策略或提高灵活性。

Python网页解析库：用requests-html爬取网页

Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html 安装，上手和 Reitz 的其他库一样，轻松简单：

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：

之后在 HTMLResponse 里定义属性方法 html，就可以通过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大多是使用 PyQuery 和 lxml 来做解析，简化了名称，挺讨巧的。

元素定位可以选择两种方式：

方法名非常简单，符合 Python 优雅的风格，这里不妨对这两种方式简单的说明：

定位到元素以后势必要获取元素里面的内容和属性相关数据，获取文本：

获取元素的属性：

还可以通过模式来匹配对应的内容：

这个功能看起来比较鸡肋，可以深入研究优化一下，说不定能在 github 上混个提交。

除了一些基础操作，这个库还提供了一些人性化的操作。比如一键获取网页的所有超链接，这对于整站爬虫应该是个福音，URL 管理比较方便：

内容页面通常都是分页的，一次抓取不了太多，这个库可以获取分页信息：

结果如下：

通过迭代器实现了智能发现分页，这个迭代器里面会用一个叫 _next 的方法，贴一段源码感受下：

通过查找 a 标签里面是否含有指定的文本来判断是不是有下一页，通常我们的下一页都会通过下一页或者加载更多来引导，他就是利用这个标志来进行判断。默认的以列表形式存在全局： ['next','more','older'] 。我个人认为这种方式非常不灵活，几乎没有扩展性。感兴趣的可以往 github 上提交代码优化。

也许是考虑到了现在 js 的一些异步加载，这个库支持 js 运行时，官方说明如下：

使用非常简单，直接调用以下方法：

第一次使用的时候会下载 Chromium，不过国内你懂的，自己想办法去下吧，就不要等它自己下载了。render 函数可以使用 js 脚本来操作页面，滚动操作单独做了参数。这对于上拉加载等新式页面是非常友好的。