首页 > 编程知识 正文

Python数据爬虫及可视化分析,python数据分析流程

时间:2023-05-06 20:04:46 阅读:141849 作者:3927

Python是进行数据分析的合适语言,主要是因为以数据为中心的库是最佳的。 Pandas是其中之一,使数据的导入和分析变得容易。 本文使用来分析斯坦福大学网站公共数据集的Country Data.csv文件中的数据。

安装

安装Pandas :

要在pipinstallpandaspandas中创建DataFrame,请使用pd.Series方法通过将多个Series传递给DataFrame类来完成数据帧的创建。 在此,传递给两个Series对象,s1是第一行,s2是第二行。

示例:

输出:

用Pandas导入数据

第一步是读取数据。 数据保存为逗号分隔的值或csv文件。 每行由换行符分隔,各列由逗号(,)分隔。 要使Python中的数据可用,必须将csv文件导入到pandas数据帧中。 DataFrame是查看和处理表单数据的方法之一。

示例:

importpandasaspddf=PD.read _ CSV (ind _ data.CSV ) (df.head ) ) df.shape输出:

29,10http://www.Sina.com /

可以使用用Pandas索引DataFrames方法创建索引。 iloc方法可以获取每个位置的最大行和列。

pandas.DataFrame.iloc

df.iloc [ 0:5, ] df.iloc [ : ] df.iloc [ 53360,5 ]很多人在学习python,但我不知道它是从哪里学来的

很多人在学习了python,掌握了基本语法之后,不知道在哪里找案例学好。

制作案例的人大多不知道如何学习更高级的知识。

那么,针对这三类人,我给大家提供了一个很好的学习平台,免费接收视频教程、电子书、课程源代码!

QQ群: 721195303

例子:

可以使用在Pandas中使用标签建立索引方法对标签编制索引。 通过此方法,可以使用标签而不是位置创建索引。

示例:

df.loc [ 0:5, ] df=df.loc [ 5: ]上述内容实际上与df.iloc [0: 5, ]相差无几。 这是因为尽管行标签可以使用任意值,但我们的行标签与位置完全一致。 但是,使用列标签可以更容易地处理数据。 示例:

df.loc[:5,' Time period']

pandas.DataFrame.loc

可以使用pandas工具的统计功能计算数据帧。

示例:

df.describe(df.corr ) (df.rank ) )。

DataFrame Math与Pandas

这些示例中的图是使用用于引用matplotlib API的标准规则创建的。 此API为轻松创建美观地图提供了Pandas的基础知识。

示例:

importtherequiredmoduleimportmatplotlib.pyplotaspltdf [ ' observation value ' ].hist (bins=10 ) df.box plot (column=y=df [ ' time period ' ] PLT.scatter (x,y,label='stars ',cooor s=30 ) PLT.xlabel(observationvalue ) ) PLT.PLT

Pandas图

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。