首页 > 编程知识 正文

数据分析,dataframe是什么数据类型

时间:2023-05-05 01:19:58 阅读:126630 作者:2559

keras数据集主要有以下七种: (可以从keras官方文档中阅读。 https://keras.io/datasets/) )。 对其中的一部分进行了学习和实践,并写了笔记。

添加几个数据集的下载位置。

dog images :https://S3-us-west-1.amazonaws.com/uda city-aind/dog-project/dog images.zip

cifa r10:https://www.cs.Toronto.edu/~ kriz/cifar-10-python.tar.gz

1、CIFAR10小图片

训练集:分为50000张彩色图像,大小32 * 32,10种

测试集: 10000张彩色图像,大小32*32

from keras.datasetsimportcifar 10 (x _ train,y_train ),) x_test,y_test )=cifar10.load_data ) 3http://www

我的博客'x_train, x_test'对CIFAR10数据集进行了分类。

2、CIFAR100小图片

训练集:分为50000张彩色图像,大小32 * 32,100种

测试集: 10000张彩色图像,大小32*32

from keras.datasetsimportcifar 100 (x _ train,y_train ),) x_test,y_test(=CIFAR100.load_data ) label

3、IMDB影评人情感分类

培训集: 25000条评论,正面评价为1,负面评价为0

测试集: 25000条评论

每个评论都不是具体的词结构,而是所有的词都已经转换成了数字。 例如,如果只想看到前1000个词,则训练集中的每个注释都由0-999个数字组成,如果出现其他词,则替换为参数: oov_char。

from keras.datasetsimportimdb (x _ train,y_train ),) x_test,y_test )=IMDB.load_data ) path=' IMDB . 给出了seed=113,start_char=1,oov_char=2,index_from=3)y_train, y_test:整数下标,num_words

http://www.Sina.com//数据的存储位置。 如果不在本地,请从网络下载http://www.Sina.com//要考虑的最常用单词。 如果不想想模糊的语言(如“Ultracrepidarian”),这很有用。keras中用CNN实现CIFAR-10图像分类:被忽视的热门词汇。 如果你不想想最常见的词,这很有用。 例如,单词“the”不会向注释中添加信息,因此可以通过将skip_top设置为2或更大来跳过。x_train, x_test:数组的最大长度,如果数组超过maxlen,则将其截断。 None表示不限制长度。y_train, y_test:播放数据的种子x_train, x_test:标记序列开始

rong>oov_char:被去掉的单词(比如因为num_words的限制,或者skip_top的限制)就用这个字符代替index_from:找到当前索引和大于当前索引的词

我的博客“项目实战二:学生录取优化对IMDB进行了分类。

 

4、路透社新闻专线主题分类

总数据集:11228条新闻专线,46个主题。

跟IMDB数据集一样,新闻不是具体的词,而是已经被转换成了数字。

from keras.datasets import reuters(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz", num_words=None, skip_top=0, maxlen=None, test_split=0.2, seed=113, start_char=1, oov_char=2, index_from=3)test_split=0.2, seed=113, start_char=1, oov_char=2, index_from=3)

跟IMDB区别在于,多一个参数:test_split,这个用来表示数据集中多少比例用来做为测试集。

 

5、手写数字MNIST数据集

训练集:60000张灰色图像,大小28*28,共10类(0-9)

测试集:10000张灰色图像,大小28*28

from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.load_data() x_train, x_test: 参数规格分别为(60000, 28, 28)和(10000, 28, 28)。y_train, y_test: 数字标签(0-9),参数规格分别为(60000,)和(10000,)

我的博客“MLP实现MNIST分类”对MNIST手写数字进行了分类。

 

6、时尚元素MNIST数据库

训练集:60000张灰色图像,大小28*28,共10类(0-9)

测试集:10000张灰色图像,大小28*28

from keras.datasets import fashion_mnist(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data() x_train, x_test: 参数规格分别为(60000, 28, 28)和(10000, 28, 28)。y_train, y_test: 数字标签(0-9),参数规格分别为(60000,)和(10000,)

 

7、波斯顿房价回归数据集

1970年代,波斯顿周边地区的房价。

from keras.datasets import boston_housing(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。