前言
之前的深度学习课程中,数据都是TensorFlow已经处理好,然后直接调用相关接口运行获取数据。也分析过MNIST数据集,具体可以查看教程《MNIST数据集》,但是MNIST数据并不是通用的文件格式,需要我们自己根据数据的格式进行解码。
TensorFlow支持csv(Comma-Separated Values)数据格式,它相对简单,被用户、商业和科学广泛应用,接下来讲解CSV数据格式,方便后续机器机器学习中构建自己的数据。
基本规则
CSV存在不同的变体,RFC 4180尝试将其标准化,它具有以下要求:
- 每行以(CR/LF)作为结束;
- 有可选的表头;
- 每条记录包含同样数量的逗号分隔字段;
- 任何字段都可以用双引号包裹;
- 包含换行符、双引号和/或逗号的字段应当被包裹。
举例
逗号分割
1997,Ford,E350
句中逗号必须被包裹
1997,Ford,E350,"Super, luxurious truck"
嵌入的双引号用额外双引号转义
1997,Ford,E350,"Super, ""luxurious"" truck"
包含表头
Year,Make,Model
1997,Ford,E350
2000,Mercury,Cougar
构建稍微复杂的表格
年份 |
品牌 |
型号 |
描述 |
价格 |
1997 |
Ford |
E350 |
ac, abs, moon |
3000.00 |
1999 |
Chevy |
Venture "Extended Edition" |
4900.00 | |
1999 |
Chevy |
Venture "Extended Edition, Very Large" |
5000.00 | |
1996 |
Jeep |
Grand Cherokee |
MUST SELL!air, moon roof, loaded |
4799.00 |
使用CSV文件表示,文件以.csv后缀结尾
Year,Make,Model,Description,Price
1997,Ford,E350,"ac, abs, moon",3000.00
1999,Chevy,"Venture ""Extended Edition""","",4900.00
1999,Chevy,"Venture ""Extended Edition, Very Large""",,5000.00
1996,Jeep,Grand Cherokee,"MUST SELL!
air, moon roof, loaded",4799.00
随机输入一些点进行绘制
折线图
,