gpu分析的python,gpu概念

本文目录一览：

1、使用python在GPU上构建和训练卷积神经网络
2、如何用Python一门语言通吃高性能并发，GPU计算和深度学习
3、用GPU做python程序并行到底用什么好

使用python在GPU上构建和训练卷积神经网络

我将对代码进行补充演练，以构建在数据集上训练的任何类型的图像分类器。在这个例子中，我将使用花卉数据集，其中包括102种不同类型的花。需要数据集和代码都可以私信我。

Pytorch是机器学习和Python上的免费软件包，非常易于使用。语法模拟numpy，因此，如果你在python中有一些科学计算经验，那么会相当有用的。只需几行代码，就可以下载预先训练的数据集，使用定义的变换对图像进行标准化，然后运行训练。

创建和扩充数据集

为了增加数据集，我使用' google_images_download'API 从互联网上下载了相关图像。显然，您可以使用此API不仅可以扩充现有数据集，还可以从头开始创建自己的数据集。

确保从图像中挑选出异常值(损坏的文件或偶然出现的无关图像)。

图像标准化

为了使图像具有相同的大小和像素变化，可以使用pytorch的transfors模块：

转移学习

从头开始训练的模型可能不是最明智的选择，因为有许多网络可用于各种数据集。简单地说，像edge-和其他简单形状检测器等低级特征对于不同的模型是相似的，即使clasificators是针对不同目的进行训练的。在本项目中，我使用了一个预训练网络Resnet152，只有最后一个完全连接的层重新用于新任务，即使这样也会产生相当好的效果。

在这里，我将除最后一层之外的所有层都设置为具有固定权重（requires_grad = False），因此只有最后层中的参数将通过梯度下降进行更新。

训练模型

下面介绍一下进行训练的函数：

如何获得GPU？

当然，对CPU的训练太慢了。根据我自己的经验，在GPU仅需要一个小时就可以完成12次训练周期，但是在CPU上相同数量的训练周期可能需要花费大约15个小时。

如果您没有本地可用的GPU，则可以考虑使用云GPU。为了加速CNN的训练，我使用了floydhub（）上提供的云GPU 。

这项服务非常指的使用：总有很好的文档和大量的提示，所以你会很清楚的知道下一步需要如何去做。在floydhub上对于使用GPU的收费也是可以接受的。

首先，需要将数据集上传到服务器

然后，需要创建项目。需要在计算机上安装floydhub客户端，将数据集上载到其网站并在终端中运行以下命令：

其中'username'是您的登录名，'i'是数据集所在的文件夹。

这样子在训练网络时就会很轻松了

结果和改进想法

得到的模型在数据集上训练了1.5小时，并在验证数据集上达到了95％的准确度。

如何用Python一门语言通吃高性能并发，GPU计算和深度学习

第一个就是并发本身所带来的开销即新开处理线程、关闭处理线程、多个处理线程时间片轮转所带来的开销。

实际上对于一些逻辑不那么复杂的场景来说这些开销甚至比真正的处理逻辑部分代码的开销更大。所以我们决定采用基于协程的并发方式，即服务进程只有一个(单cpu)所有的请求数据都由这个服务进程内部来维护，同时服务进程自行调度不同请求的处理顺序，这样避免了传统多线程并发方式新建、销毁以及系统调度处理线程的开销。基于这样的考虑我们选择了基于Tornado框架实现api服务的开发。Tornado的实现非常简洁明了，使用python的生成器作为协程，利用IOLoop实现了调度队列。

第二个问题是数据库的性能，这里说的数据库包括MongoDB和Redis，我这里分开讲。

先讲MongoDB的问题，MongoDB主要存储不同的用户对于验证的不同设置，比如该显示什么样的图片。

一开始每次验证请求都会查询MongoDB，当时我们的MongoDB是纯内存的，同时三台机器组成一个复制集，这样的组合大概能稳定承载八九千的qps，后来随着我们验证量越来越大，这个承载能力逐渐就成为了我们的瓶颈。

为了彻底搞定这个问题，我们提出了最极端的解决方案，干脆直接把数据库中的数据完全缓存到服务进程里定期批量更新，这样查询的开销将大大降低。但是因为我们用的是Python，由于GIL的存在，在8核服务器上会fork出来8个服务进程，进程之间不像线程那么方便，所以我们基于mmap自己写了一套伙伴算法构建了一个跨进程共享缓存。自从这套缓存上线之后，Mongodb的负载几乎变成了零。

说完了MongoDB再说Redis的问题，Redis代码简洁、数据结构丰富、性能强大，唯一的问题是作为一个单进程程序，终究性能是有上限的。

虽然今年Redis发布了官方的集群版本，但是经过我们的测试，认为这套分布式方案的故障恢复时间不够优秀并且运维成本较高。在Redis官方集群方案面世之前，开源世界有不少proxy方案，比如Twtter的TwemProxy和豌豆荚的Codis。这两种方案测试完之后给我们的感觉TwemProxy运维还是比较麻烦，Codis使用起来让人非常心旷神怡，无论是修改配置还是扩容都可以在配置页面上完成，并且性能也还算不错，但无奈当时Codis还有比较严重的BUG只能放弃之。

几乎尝试过各种方案之后，我们还是下决心自己实现一套分布式方案，目的是高度贴合我们的需求并且运维成本要低、扩容要方便、故障切换要快最重要的是数据冗余一定要做好。

基于上面的考虑，我们确定基于客户端的分布式方案，通过zookeeper来同步状态保证高可用。具体来说，我们修改Redis源码，使其向zookeeper注册，客户端由zookeeper上获取Redis服务器集群信息并根据统一的一致性哈希算法来计算数据应该存储在哪台Redis上，并在哈希环的下一台Redis上写入一份冗余数据，当读取原始数据失败时可以立即尝试读取冗余数据而不会造成服务中断。

用GPU做python程序并行到底用什么好

因为我的程序中需要并行的是优化计算的evaluation部分，所以如果能够找到一些支持并行优化的库就可以。从python官网上，可以找到一个DEAP库（git上有），利用map进行并行计算。这个库的优点是，documents和例子是非常详细的。