python数据分析基础教程,python数据分析面试题

概念简介

自然智能自然智能Natural IntelligenceNI指人通过大脑的运算和决策产生有价值的行为。这些行为包括了人的大脑思考及决策、耳朵听力及判断、眼睛视觉及判断、鼻子嗅觉及判断、皮肤触觉及判断等体现在人行为的方方面面。

人工智能Artificial intelligence简称AI。人工智能是计算机科学的一个分支它企图了解智能的本质并生产出一种新的能以人类智能相似的方式做出反应的智能机器是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

机器学习Machine Learning简称ML。机器学习属于人工智能的一个分支也是人工智能的和核心。机器学习理论主要是设计和分析一些让计算机可以自动”学习“的算法。

深度学习Deep Learning简称DL。最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并不是一个全新的概念可大致理解为包含多个隐含层的神经网络结构。为了提高深层神经网络的训练效果人们对神经元的连接方法和激活函数等方面做出相应的调整。深度学习是机器学习研究中的一个新的领域其动机在于建立、模拟人脑进行分析学习的神经网络它模仿人脑的机制来解释数据如图象、声音、文本。

工具

Jupyter Notebook将代码、说明文本、数学方程式、数据可视化图表等内容全部组合到一起显示在一个共享的文档中可以实现一边写代码一边记录而这些功能是Python自带的IDLE和集成开发环境PyCharm无法比拟的。

快捷键

Enter : 转入编辑模式

Shift-Enter : 运行本单元选中下个单元

Ctrl-Enter : 运行本单元

Alt-Enter : 运行本单元在其下插入新单元

Y : 单元转入代码状态

M :单元转入markdown状态

R : 单元转入raw状态

1 : 设定 1 级标题

2 : 设定 2 级标题

3 : 设定 3 级标题

4 : 设定 4 级标题

5 : 设定 5 级标题

6 : 设定 6 级标题

Up : 选中上方单元

K : 选中上方单元

Down : 选中下方单元

J : 选中下方单元

Shift-K : 扩大选中上方单元

Shift-J : 扩大选中下方单元

A : 在上方插入新单元

B : 在下方插入新单元

X : 剪切选中的单元

C : 复制选中的单元

Shift-V : 粘贴到上方单元

V : 粘贴到下方单元

Z : 恢复删除的最后一个单元

D,D : 删除选中的单元

Shift-M : 合并选中的单元

Ctrl-S : 文件存盘

S : 文件存盘

L : 转换行号

O : 转换输出

Shift-O : 转换输出滚动

Esc : 关闭页面

Q : 关闭页面

H : 显示快捷键帮助

I,I : 中断Notebook内核

0,0 : 重启Notebook内核

Shift : 忽略

Shift-Space : 向上滚动

Space : 向下滚动

数据分析 1.数据分析流程

熟悉工具-明确目的-获取数据-数据处理-数据分析-验证结果-结果呈现-数据应用

2.数据分析常用工具

excel

excel具备多种强大的功能例如创建表格数据透视表VBA等excel系统如此庞大但是在今天大数据人工智能时代数据量很大的情况excel已经无法胜任不仅处理起来速度会变慢从数据分析层面excel只是停留在描述性分析

python

虽然Excel已尽最大努力考虑到数据分析的大多数应用场景但由于它是定制软件很多东西都固化了不能自由地修改。而Python非常的强大和灵活可以编写代码来执行所需的任何操作从专业和方便的角度来看它比Excel更加强大。另外Python可以实现Excel难以实现的应用场景。专业的统计分析预测分析

Pandas

概述Pandas是数据分析三大剑客之一是Python的核心数据分析库它提供了快速、灵活、明确的数据结构能够简单、直观、快速地处理各种类型的数据

Pandas提供的两个主要数据结构Series一维数组结构与DataFrame二维数组结构

Series

Series是Python的Pandas库中的一种数据结构它类似一维数组由一组数据以及与这组数据相关的标签即索引)组成或者仅有一组数据没有索引也可以创建一个简单的Series。Series可以存储整数、浮点数、字符串、Python对象等多种类型的数据。

DataFrame

DataFrame是Pandas库中的一种数据结构它是由多种类型的列组成的二维表数据结构由行、列数据组成的表格类似于Excel、SQL或Series对象构成的字典。DataFrame是最常用的Pandas对象它与Series对象一样支持多种类型的数据。

DataFrame重要属性属性描述举例values查看所有元素的值df.valuesdtypes查看所有元素的类型df.dtypes

index

查看所有行名、重命名行名

df.index

df.index[1,2,3]

columns查看所有列名、重命名列名

df.columns

df.columns[语文,数学]

T行列数据转换df.Thead查看前n条数据默认5条

df.head()

df.head(7)

tail

查看后n条数据默认5条df.tail()shape查看行数和列数[0]表示行[1]表示列

df.shape[0]

df.shape[1]

]info查看索引数据类型和内存信息df.info

DataFrame重要函数函数描述举例describe查看每列的统计汇总信息DataFrame类型df.describe()

count

返回每一列中的非空值得个数df.count()sum返回每一列的和无法计算返回空值df.sum()max返回每一列的最大值df.max()min返回每一列的最小值df.min()argmax返回最大值所在的自动索引的位置df.argmax()argmin返回最小值所在的自动索引的位置df.argmin()idxmax返回最大值所在的自定义索引位置df.idxmax()idxmin返回最小值所在的自定义索引位置df.idxmin()

mean

返回每一列的平均值df.mean()median返回每一列的中位数中位数又称中值指按顺序排列的一组数据中居于中间位置的数df.median()var返回每一列的方差方差用于度量单个随机变量的离散程度--不连续程度df.var()std返回每一列的标准差标准差是算术平方根反映数据集的离散程度df.std()isnull检查df的空值空值为True反之则为Falsedf.isnull()notnull检查df的空值非空值为True反之为Falsedf.notnull()

导入文件

导入.xls或.xlsx文件

导入.xls或者.xlsx文件使用’pd.read_excel‘导入文件参数如下

io字符串.xls或.xlsx文件路径或类文件对象。

sheet_nameNone、字符串、整数、字符串列表或整数列表默认值为0。字符串用于工作表名称整数为索引表示工作表位置字符串列表或整数列表用于请求多个工作表为None时获取所有工作表

header指定作为列名的行默认值为0

names默认值为None要使用的列名列表

index_col指定列为行索引默认值为None

usecolsint、list列表或字符串默认值为None。　如果为None则解析所有列。　如果为int则解析最后一列。　如果为list列表则解析列号列表的列。　如果为字符串则表示以逗号分隔的Excel列字母和列范围列表例如“A:E”或“A,C,E:F”。范围包括双方。

squeeze/skwiːz/ 布尔值默认值为False如果解析的数据只包含一列则返回一个

Series。　

dtype列的数据类型名称或字典默认值为None

nrows:/rəʊz/导入前多少行

skiprows省略指定行数的数据从第一行开始。

skipfooter省略指定行数的数据从尾部数的行开始。

导入csv文件或者txt文件

导入.csv文件主要使用Pandas的read_csv()方法,参数如下

filepath_or_buffer字符串文件路径也可以是URL链接。　

sep、delimiter字符串分隔符。

header指定作为列名的行默认值为0即取第1行的值为列名。数据为除列名以外的数据若数据不包含列名则设置headerNone。　

names默认值为None要使用的列名列表。　

index_col指定列为索引列默认值为None索引0是DataFrame的行标签。　

dtype列的数据类型名称或字典默认值为None。例如{a:np.float64,b:np.int32}。　

parse_dates布尔类型值、int类型值的列表、列表或字典默认值为False。可以通过parse_dates参数直接将某列转换成datetime64日期类型。例如df1pd.read_csv(1月.csv, parse_dates[订单付款时间])。　

parse_dates为True时尝试解析索引。　

parse_dates为int类型值组成的列表时如[1,2,3]则解析1、2、3列的值作为独立的日期列。　

parse_date为列表组成的列表如[[1,3]]则将1、3列合并作为一个日期列使用。　

parse_date为字典时如{总计[1, 3]}则将1、3列合并合并后的列名为“总计”。　

encoding字符串默认值为None文件的编码格式。Python常用的编码格式是UTF-8。　中文编码gbk

返回值返回一个DataFrame。

导入.txt文件同样使用Pandas的read_csv()方法不同的是需要指定sep参数如制表符t

导入HTML网页

导入HTML网页数据主要使用Pandas的read_html()方法该方法用于导入带有table标签的网页表格数据参数如下

io字符串文件路径也可以是URL链接。网址不接受https可以尝试去掉https中的s后爬取如http://www.mingribook.com。

match正则表达式返回与正则表达式匹配的表格。　

flavor/ˈfleɪvə(r)/解析器默认为lxml。　

header指定列标题所在的行列表list为多重索引。　

index_col指定行标题对应的列列表list为多重索引。　

encoding字符串默认为None文件的编码格式。