关于python处理csv大数据的信息

本文目录一览：

1、如何用python排序大文件的csv文件
2、开启数据分析的大门-数据收集：Python对文件的操作
3、Python处理Excel文件(csv, xls, xlsx)
4、Python csv库整理（部分）

如何用python排序大文件的csv文件

使用Data.olllo数据助手好了，Data.olllo数据助手就是基于Python实现的，超大EXCEL、CSV、TXT数据文件排序都很简单、方便。

开启数据分析的大门-数据收集：Python对文件的操作

简介

我是一名应届经济学毕业生，在学习Python语言的过程中，接触到了数据分析，机器学习和人工智能，并对此特别感兴趣，现在我把整个学习过程记录下来，希望和我有相同兴趣和爱好的朋友们一同成长，期盼着各位专家的指导。

环境介绍

在整个过程当中，将采用Python和Excel，采用Python,是因为Python提供了丰富的开发框架和工具库，使用Excel是因为Excel是使用非常广泛的办公软件，我在Excel里将复杂的算法简单化，使大家快速理解各种难以理解的算法。

在开始之前，我们已经准备好了Anaconda和Excel环境。在这里省略了这个过程。

数据获取将通过tushare开放平台，后面我会介绍和演示如何应用tushare平台。

数据分析流程简介

数据分析是由数据收集开始，收集的数据经过标准化处理和整理后，通过各种算法，进行数据分析，目的是为了总结过去的历史数据，在数据趋势上预测未来的走势，同时对现存的环境进行优化。

我们今天先从数据收集开始。

数据收集需要应用到Python对文件的读写操作。

下面这段代码以只读方式采用’UTF-8’编码方式打开当前目录下的text1.txt文件，并输出到屏幕上。操作完毕后，关闭文件。

小贴士：在从tushare平台获取数据时，每个用户会分配到一个key，我们可以把这个key封装到这个文件里。为的是数据安全和便利性。

Python对数据的处理主要是csv文件格式，Excel和数据库。今天我们主要针对csv文件进行操作。为的是尽快开始我们的数据分析之旅。后面在适当的时候，我来完成对Excel和数据库的操作。

Python 读取csv文件有很多种方法，我们这里采用PANDAS库，下面是读取csv文件代码：

下面这段代码先生成数据列表，然后写入csv文件。

好了，到现在为止，Python对数据收集的基础工作就算完成了，Python对文件操作有很多技巧，不是我们这一系列的重点，就不一一介绍了，有兴趣的伙伴可以查阅相关文档。

Python处理Excel文件(csv, xls, xlsx)

Excel文件格式主要有csv，xlsx和xlsx，对于不同的格式，我们使用不同的包来进行处理。

其中， encoding='utf-8-sig' 是为了编码正常可以正确显示中文， spamreader 中的每一个 row 为list格式，可以循环取出每个单元格的值。

结果：

如果csv文件是数据类的，那么使用 pandas 包读写数据会更方便。

结果：

参数：

结果：

参数：

Excel文件有三层对象：工作薄、工作表和三元格，分别对应 openpyxl 包中的workbook、sheet和cell。

注： openpyxl 功能全面，还支持：合并单元格、数学运算、单元格格式、迭代器 ws.iter_rows() 操作等。

注： xlrd 打开为只读模式，不可修改。

结果：

Python csv库整理（部分）

近期,笔者到一些数据竞赛网站进行观察学习,发现很多数据是以csv文件处理的(废话).因而,磨刀不误砍柴工,笔者先对Python的csv库进行学习.

csv模块实现了CSV格式表单数据的读写.这可以以一个兼容Excel的方式读写其数据文件,csv模块中的reader和writer类被用来读写序列化的数据.也可以使用DictReader类和DictWriter类以字典的方式读取数据.

返回一个reader对象,该对象逐行遍历csvfile(文件和列表均适用,但是文件的话应该newline=''.

默认每一行读取一个字符串组成的列表(而非数值,除非修改QUOTE_NONUMERIC).

返回一个writer对象,负责将数据在给定的文件类对象上转换成带分隔符的字符串.csvfile(只要该对象有write()方法,文件的话应该newline=''.)

这两个方法可以把name字符串和dialect关联/脱钩.dialect可以是Dialect的子类,或者fmtparams的关键字参数.

返回一个Dialect对象为name的变种,若其未注册,抛出Error.

返回已经注册的所有变种的名称

返回当前解析器允许的最大字段大小,如果制定了参数,参数将成为新的最大字段大小.

该对象操作上类似reader,但是把每行中的信息映射到一个字典,字典的键由fieldnames给出

fieldname的参数是一个序列sequence [1] ,如果参数缺省,默认第一行的值作为字段名.

如果某一行中的字段多于字段名(比如说约定有5项属性,但是这一行却出现了6个数据)，则其余字段将放入列表中，字段名由 restkey 指定（默认为 None）。如果非空白行的字段少于字段名，则缺少的值将用 None 填充。

#其实这玩意应该就跟各种填表里面的备注用法差不多.

3.8中返回的行是dict类型.

该对象操作上类似reader,但是把每行中的信息映射到一个字典,字典的键由fieldnames给出,fieldname参数是不可缺省的.restval用来指定字典缺少键的时候要写入的值.extrasaction用于指定关键键在fieldname中找不到的情况的处理机制.'raise'引发ValueError,而'ignore'则会被忽略.

这个类被用来瑞段csv文件的格式

以下诸类均在括号中标注了在其变种注册表中的名称

定义了Excel生成的csv文件的常规属性.('excel')

定义了Excel生成的,tab分割的csv文件的常规属

性.('excel-tab')

定义了UNIX系统上生成的csv文件的常规属性('unix'):

任意可能发生的csv库函数错误.

参考链接

Python3.8.2文档中关于csv库的相关文档