python中对特征进行打分（特征选择python）

本文目录一览：

1、python的五个特点
2、Python的特点有哪些?
3、如何使用python数据特征分析与可视化
4、如何用Python对数据进行差分
5、Python 数据可视化：分类特征统计图
6、Python的特点（优点和缺点）

python的五个特点

python的五个特点：

1、简单易学

python是一种代表简单主义思想的语言，阅读一个良好的python程序就感觉像是在读英语段落一样，尽管这个英语段的语法要求非常严格。python最大的优点之一是具有伪代码的本质，它使我们在开发python程序时，专注的是解决问题，而不是搞明白语言本身。

2、面向对象

python既支持面向过程编程，也支持面向对象编程。在面向过程的语言中，程序是由过程或仅仅是可重用代码的函数构建起来的。在面向对象的语言中，程序是由数据和功能组合而成的对象构建起来的。

与其他主要的语言如C++和Java相比，python以一种非常强大又简单的方式实现面向对象编程。

3、可移植性

由于python的开源本质，它已经被移植在许多平台上。如果小心地避免使用依赖于系统的特性，那么所有python程序无需修改就可以在下述任何平台上运行，如：Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、QNX、VMS、Windows

CE，甚至还有PocketPC、Symbian以及Google基于Linux开发的android平台。

4、解释性

一个用编译性语言如C或C++写的程序可以从源文件转换到一个计算机使用的语言。这个过程通过编译器和不同的标记、选项完成。当运行程序的时候，连接转载器软件把程序从硬盘复制到内存中并且运行。

而python语言写的程序不需要编译成二进制代码，可以直接从源代码运行程序。在计算机内部，python解释器把源代码转换成称为字节码的中间形式，然后再把它翻译成计算机使用的机器语言并运行。

事实上，由于不再担心如何编译程序，如何确保连接转载正确地库等，这一切使得使用python变得更为简单。

5、开源

python是FLOSS之一。简单地说，你可以自由地发布这个软件的拷贝，阅读它的源代码，对它做改动，把它的一部分用于新的自由软件中。

FLOSS是基于一个团体分享知识的概念，这是为什么python如此优秀的原因之一;它是由一群希望看到一个更加优秀的python的人创造并经常改进这的。

Python的特点有哪些?

python的五个特点：

1、简单易学

2、面向对象

与其他主要的语言如C++和Java相比，python以一种非常强大又简单的方式实现面向对象编程。

3、可移植性

CE，甚至还有PocketPC、Symbian以及Google基于Linux开发的android平台。

4、解释性

一个用编译型语言如C或C++写的程序可以从源文件转换到一个计算机使用的语言。这个过程通过编译器和不同的标记、选项完成。当运行程序的时候，连接转载器软件把程序从硬盘复制到内存中并且运行。

事实上，由于不再担心如何编译程序，如何确保连接转载正确的库等，这一切使得使用python变得更为简单。

5、开源

python是FLOSS之一。简单地说，你可以自由地发布这个软件的拷贝，阅读它的源代码，对它做改动，把它的一部分用于新的自由软件中。

FLOSS是基于一个团体分享知识的概念，这是为什么python如此优秀的原因之一;它是由一群希望看到一个更加优秀的python的人创造并经常改进这的。

如何使用python数据特征分析与可视化

如何评价利用python制作数据采集，计算，可视化界面

1、为什么用Python做数据分析

首先因为Python可以轻松地集成C、C++、Fortran代码，一些底层用C写的算法封装在python包里后性能非常高效。并且Python与Ruby都有大量的Web框架，因此用于网站的建设，另一方面个人觉得因为Python作为解释性语言相对编译型语言更为简单，可以通过简单的脚本处理大量的数据。而组织内部统一使用的语言将大大提高工作效率。

2、为什么用R做数据分析

R的优势在于有包罗万象的统计函数可以调用，特别是在时间序列分析方面（主要用在金融分析与趋势预测）无论是经典还是前沿的方法都有相应的包直接使用；相比python在这方面贫乏不少。另外R语言具有强大的可视化功能，一个散点图箱线图可以用一条程序搞定，相比Excel更加简单。

在使用环境方面，SAS在企业、政府及军事机构使用较多，因其权威认证；SPSS、R大多用于科研机构，企业级应用方面已有大量的商业化R软件，同时可结合（具体怎么结合，尚未搞明白）Hadoop进行数据挖掘。

如何用Python对数据进行差分

处理过与时间有关的数据的人都知道，差分变化经常用来使得结果更加直观。在这篇文章里将会教你如何用Python来实现这一目的，读完这篇文章，你将会掌握以下技能：

1、知道什么是差分变换以及滞后差分和差分阶数的设置

2、如何手动计算差分

3、怎样使用Pandas内置的差分函数

所以，让我们赶紧开始吧！

为什么要对时间序列数据进行差分？

首先来看下为什么要对数据进行差分变化，差分变化可以消除数据对时间的依赖性，也就是降低时间对数据的影响，这些影响通常包括数据的变化趋势以及数据周期性变化的规律。进行差分操作时，一般用现在的观测值减去上个时刻的值就得到差分结果，就是这么简单，按照这种定义可以计算一系列的差分变换。

滞后差分

连续观测值之间的差分变换叫做一阶滞后差分。滞后差分的步长需要根据数据的时间结构做调整，例如对于周期性变化的数据，这个时间步长就是数据变化的周期。

差分阶数

在进行一次差分之后，时间项的作用并没有完全去掉，将会继续对差分结果进行差分变化，直到完全消除时间项的影响因素为止，这个过程中进行的差分操作次数就称为差分阶数。

洗发水销售数据

这份数据是三年来每月洗发水的销售情况，总共有36个数据记录，原始数据来自Makridakis, Wheelwright和 Hyndman (1998).，可以从下面的地址下到数据：

下面的代码将会导入数据并将结果画成折线图，如下所示：

手动差分

在这一部分中，我们将会自定义一个函数来实现差分变换，这个函数将会对提供的数据进行遍历并根据指定的时间间隔进行差分变换。具体代码如下：

从上面的代码中可以看到该函数将会根据指定的时间间隔来对数据进行变换，一般来说，通常会计算间隔一个数据的差分，这样的结果比较可靠。当然，我们也可以将上面的函数进行一定的改进，加入差分阶数的指定。

下面将这函数应用到上面洗发水销售的数据中去，运行之后绘出下面的图，具体如下：

自动差分

Pandas库里提供了一个函数可以自动计算数据的差分，这个函数是diff()，输入的数据是“series'或”DataFrame'类型的，像前面自定义函数那样，我们也可以指定差分的时间间隔，不过在这里这个参数叫做周期。

下面的例子是用Pandas内置函数来计算差分的，数据类型是series的，使用Pandas内置函数的好处是代码工作量减少了不少，而且绘出的图中包含更详细的信息，具体效果如下：

总结

读完本文想必你已经学会用python来实现对数据的差分了，尤其是对差分的概念，手动差分，以及使用Pandas内置函数进行差分都有所了解了。如果有什么好的想法欢迎在评论栏里留下。

Python 数据可视化：分类特征统计图

上一课已经体验到了 Seaborn 相对 Matplotlib 的优势，本课将要介绍的是 Seaborn 对分类数据的统计，也是它的长项。

针对分类数据的统计图，可以使用 sns.catplot 绘制，其完整参数如下：

本课使用演绎的方式来学习，首先理解这个函数的基本使用方法，重点是常用参数的含义。

其他的参数，根据名称也能基本理解。

下面就依据 kind 参数的不同取值，分门别类地介绍各种不同类型的分类统计图。

读入数据集：

然后用这个数据集制图，看看效果：

输出结果：

毫无疑问，这里绘制的是散点图。但是，该散点图的横坐标是分类特征 time 中的三个值，并且用 hue='kind' 又将分类特征插入到图像中，即用不同颜色的的点代表又一个分类特征 kind 的值，最终得到这些类别组合下每个记录中的 pulse 特征值，并以上述图示表示出来。也可以理解为，x='time', hue='kind' 引入了图中的两个特征维度。

语句 ① 中，就没有特别声明参数 kind 的值，此时是使用默认值 'strip'。

与 ① 等效的还有另外一个对应函数 sns.stripplot。

输出结果：

② 与 ① 的效果一样。

不过，在 sns.catplot 中的两个参数 row、col，在类似 sns.stripplot 这样的专有函数中是没有的。因此，下面的图，只有用 sns.catplot 才能简洁直观。

输出结果：

不过，如果换一个叫角度来说，类似 sns.stripplot 这样的专有函数，表达简单，参数与 sns.catplot 相比，有所精简，使用起来更方便。

仔细比较，sns.catplot 和 sns.stripplot 两者还是稍有区别的，虽然在一般情况下两者是通用的。

因此，不要追求某一个是万能的，各有各的用途，存在即合理。

不过，下面的声明请注意：如果没有非常的必要，比如绘制分区图，在本课中后续都演示如何使用专有名称的函数。

前面已经初步解释了这个函数，为了格式完整，这里再重复一下，即 sns.catplot 中参数 kind='strip'。

如果非要将此函数翻译为汉语，可以称之为“条状散点图”。以分类特征为一坐标轴，在另外一个坐标轴上，根据分类特征，将该分类特征数据所在记录中的连续值沿坐标轴描点。

从语句 ② 的结果图中可以看到，这些点虽然纵轴的数值有相同的，但是没有将它们重叠。因此，我们看到的好像是“一束”散点，实际上，所有点的横坐标都应该是相应特征分类数据，也不要把分类特征的值理解为一个范围，分散开仅仅是为了图示的视觉需要。

输出结果：

④ 相对 ② 的图示，在于此时同一纵轴值的都重合了——本来它们的横轴值都是一样的。实现此效果的参数是 jitter=0，它可以表示点的“振动”，如果默认或者 jitter=True，意味着允许描点在某个范围振动——语句 ② 的效果；还可设置为某个 0 到 1 的浮点，表示许可振动的幅度。请对比下面的操作。

输出结果：

语句 ② 中使用 hue='kind' 参数向图中提供了另外一个分类特征，但是，如果感觉图有点乱，还可以这样做：

输出结果：

dodge=True 的作用就在于将 hue='kind' 所引入的特征数据分开，相对 ② 的效果有很大差异。

并且，在 ⑤ 中还使用了 paletter='Set2' 设置了色彩方案。

sns.stripplot 函数中的其他有关参数，请读者使用帮助文档了解。

此函数即 sns.catplot 的参数 kind='swarm'。

输出结果：

再绘制一张简单的图，一遍研究这种图示的本质。

输出结果：

此图只使用了一个特征的数据，简化表象，才能探究 sns.swarmplot 的本质。它同样是将该特征中的数据，依据其他特征的连续值在图中描点，并且所有点在默认情况下不彼此重叠——这方面与 sns.stripplot 一样。但是，与之不同的是，这些点不是随机分布的，它们经过调整之后，均匀对称分布在分类特征数值所在直线的两侧，这样能很好地表示数据的分布特点。但是，这种方式不适合“大数据”。

sns.swarmplot 的参数似乎也没有什么太特殊的。下面使用几个，熟悉一番基本操作。

在分类维度上还可以再引入一个维度，用不同颜色的点表示另外一种类别，即使用 hue 参数来实现。

输出结果：

这里用 hue = 'smoker' 参数又引入了一个分类特征，在图中用不同颜色来区分。

如果觉得会 smoker 特征的值都混在一起有点乱，还可以使用下面方式把他们分开——老调重弹。

输出结果：

生成此效果的参数就是 dodge=True，它的作用就是当 hue 参数设置了特征之后，将 hue 的特征数据进行分类。

sns.catplot 函数的参数 kind 可以有三个值，都是用于绘制分类的分布图：

下面依次对这三个专有函数进行阐述。

Python的特点（优点和缺点）

Python 是一种面向对象、解释型的脚本语言，同时也是一种功能强大而完善的通用型语言。相比其他编程语言（比如 Java），Python 代码非常简单，上手非常容易。

举个简单的例子，比如要完成某个功能，如果用 Java 需要 100 行代码，但用 Python 可能只需要 20 行代码，这是 Python 具有巨大吸引力的一大特点。

不仅如此，Python 还有其他的特点，下面就给大家做一下总结。

Python 特点：简单易学

Python 是一种代表简单注意思想的语言，阅读一个良好的 Python 程序，即使是在 Python 语法要求非常严格的大环境下，给人的感觉也像是在读英语段落一样。

换句话说，Python 编程语言最大的优点之一，是其具有伪代码的特质，它可以让我们在开发 Python 程序时，专注于解决问题，而不是搞明白语言本身。

Python 特点：开源

Python 是 FLOSS（自由/开源源码软件）之一，简单地理解就是，用户使用 Python 进行开发和发布自己编写的程序，不需要支付任何费用，也不用担心版权问题，即使作为商业用途，Python 也是免费的。

开源正在成为软件行业的一种发展趋势，现在有很多商业软件公司都开始将自己的产品变成开源的（例如 Java）。也许，Python 的开源正是它如此优秀的原因之一，因为会有这么一群人，他们希望看到一个更加优秀的 Python，从而为了这个目标，不断地对 Python 进行创造，不断地改进。

Python 特点：高级语言

Python 是高级语言，因此当使用 Python 语言编写程序时，我们无需再考虑一些底层细节方面的问题。例如，如何管理程序使用的内存等等。

Python 特点：解释型语言

一个用编译型语言（如 C 或 C++）写的程序，可以从源文件转换到一个计算机使用的语言。这个过程主要通过编译器完成。当运行程序的时候，我们可以把程序从硬盘复制到内存中并且运行。

而 Python 语言写的程序，则不需要编译成二进制代码，可以直接从源代码运行程序。在计算机内部，由 Python 解释器把源代码转换成字节码的中间形式，然后再把它翻译成计算机使用的机器语言并运行。

事实上，由于不再担心如何编译程序，使得使用 Python 变得更加简单，我们只需要将 Python 程序复制到另外一台计算机上，它就可以工作了。因此，Python 程序更加易于移植。

Python 特点：可移植性

由于 Python 是开源的，它已经被移植到许多平台上。如果能够避免使用依赖系统的特性，那就意味着，所有 Python 程序都无需修改就可以在好多平台上运行，包括 Linux 、Windows、FreeBSD、Solaris 等等，甚至还有 PocketPC、Symbian 以及 Google 基于 Linux 开发的 Android 平台。

解释型语言几乎天生就是跨平台的。Python 作为一门解释型的语言，它天生具有跨平台的特征，只要为平台提供了相应的 Python 解释器，Python 就可以在该平台上运行。

Python 特点：面向对象

Python 既支持面向过程编程，也支持面向对象编程。在“面向过程”的语言中（如 C 语言），程序仅仅是由可重用代码的函数构建起来的；而在“面向对象”的语言（如 C++）中，程序是由数据和功能组合而成的对象构建起来的。

与其他编程语言（如 C++ 和 Java）相比，Python 是以一种非常强大，而又简单的方式实现的面向对象编程。

Python 特点：强大的功能

Python强大的功能也许才是很多用户支持Python的最重要的原因，从字符串处理到复杂的 3D 图形编程，Python 借助扩展模块都可以轻松完成。

实际上，Python的核心模块已经提供了足够强大的功能，使用 Python 精心设计的内置对象可以完成许多功能强大的操作。

此外，Python的社区也很发达，即使一些小众的应用场景，Python往往也有对应的开源模块来提供解决方案。

Python 特点：可扩展性

Python 的可扩展性体现为它的模块，Python 具有脚本语言中最丰富和强大的类库，这些类库覆盖了文件 I/O、GUI、网络编程、数据库访问、文本操作等绝大部分应用场景。

Python 可扩展性一个最好的体现是，当我们需要一段关键代码运行的更快时，可以将其用 C 或 C++ 语言编写，然后在 Python 程序中使用它们即可。

除了以上几个特点（也可称之为优点）之外，作为一个解释型语言，Python 自然也有一些弱点，比如：

速度慢：Python 程序比 Java、C、C++ 等程序的运行效率都要慢。

源代码加密困难：不像编译型语言的源程序会被编译成目标程序，Python 直接运行源程序，因此对源代码加密比较困难。

其实，这两个缺点并不是什么大问题，首先，由于目前计算机的硬件速度越来越快，软件工程往往更关注开发过程的效率和可靠性，而不是软件的运行效率；至于第二个问题就更不是问题了，现在软件行业的大势本就是开源，就像 Java 程序同样很容易反编译，但丝毫不会影响它的流行。