收藏 分享(赏)

深度学习机器配置.doc

上传人:精品资料 文档编号:8903838 上传时间:2019-07-16 格式:DOC 页数:3 大小:28.30KB
下载 相关 举报
深度学习机器配置.doc_第1页
第1页 / 共3页
深度学习机器配置.doc_第2页
第2页 / 共3页
深度学习机器配置.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、深度学习机器配置方案一:配置一个“本地服务器”通俗来说就是一台“高配”电脑。 优点:比较自由,不受约束。 缺点:价格昂贵,需要考虑金钱问题。 (配置一台初级的深度学习主机大概需要 1.5w 左右)适用情况: 1)你本人有充足的的资金; 2)需要发表论文,多次训练自己的 Model; 3)尝试运行别人的 Model; 4)想要从事深度学习领域的研究;方案二:配置一台自己的“云服务器主机” 优点:可以按照项目的需要选择合适的配置,比较灵活。 缺点:针对个人来讲,价格还是比较贵的。 适用情况: 1)由于项目的需要,需要使用到深度学习,需要训练 Model; 2)初创企业 注:根据我个人的了解,当前云

2、服务器的计费方式主要有两种:按时计费、按月计费和按年计费。国内有的公司提供了相应的 GPU 服务器和 FPGA 服务器平台,但是还处于测试阶段。方案三:配置一个“深度学习集群” 优点:更快更高效的获得自己的 Model,即加快开发的效率; 缺点:对于个人来讲不太现实,一般是大公司的选择; 适用情况: 1)具有雄厚基金的大公司,如 BAT 等都有自己的深度学习集群平台和自己的深度学习框架; 2)深度学习领域的初创公司;以上就是 3 种训练 Model 的方式,下面我将会给出一些有用的云服务器连接,感兴趣的同学可以自己探索。百度 AI 云服务器,支持 PaddelPaddel 和 Tensorfl

3、ow腾讯云服务器,支持 GPU 云服务器和 FPGA 云服务器,后者处于内测阶段阿里云服务器,支持 GPU 云服务器和 FPGA 云服务器,后者处于内测阶段华为机器学习云服务器微软云服务器,国内不支持 GPU 服务器,北美支持联众集群,一个专业的 GPU 集群解决方案提供商配置深度学习主机要配置一台深度学习主机,需要选择合适的 CPU、GPU、内存条、固态硬盘、电源、散热、机箱、主板等(最好支持 PICE,应用于多 GPU 的其概况下) 。GPU:即图像处理单元,最为一个并行处理器,起初是专门用来处理图像的,但是由于大数据的驱动,如今的它已经广泛的应用到了多个领域中,包括“深度学习” “智能驾

4、驶”“VR”等。由于它可以利用多个线程来进行高速的矩阵运算,而深度学习中会涉及到很多的矩阵运算。这正是它的用武之地。因此选择一个合适的 GPU 变得“至关重要” 。深度学习中常用的 GPU 包括:GTX960 ,GTX970 ,GTX1080, TiTan x,GTX1080Ti 等,以上的 GPU 都属于 GeForce 系列,进行“单浮点运算” ,都是一些比较新的型号具有很强的性能,按照以上的顺序性能依次提升,最主要的改变是在“架构和 SM(线程个数) ”方面,960,970 都属于 “Maxwell 架构” ,而后三者都是“Pascal 架构” 。他们的价格也是逐渐升高,需要根据自己的资

5、本选择合适的 GPU。总之“一个好的 GPU 可以将你的训练时间从几周缩减成几天” 。CPU:作为一个高速的串行处理器,常用来作为“控制器”使用,用来发送和接收指令,解析指令等。深度学习为什么需要 CPU?最主要的原因是:由于 GPU 内部结构的限制,使得它比较适合进行高速的并行运算,而并不适合进行快速的指令控制,而且许多的数据需要在 GPU 和 CPU 之间进行存取,这就需要用到 CPU,因为这是它的强项。内存条:主要进行 CPU 和外设之间的数据交换,它的存取速度要比硬盘快好几倍,但是价格比较昂贵,通常会和容量成正比。通常选择 16GB,如果有足够的资金,可以考虑购买一个 32GB 的内存

6、,这会在训练较大的模型时展现它的优势。主板:用来组装电路的 PCB 板,对于深度学习来讲,最重要的就是内存和 PCIE 的卡槽,集群深度学习在 模型并行化( model parallelism ) 方法里,分布式系统中的不同机器负责单个网络模型的不同部分 例如,神经网络模型的不同网络层被分配到不同的机器。在 数据并行化( data parallelism ) 方法里,不同的机器有同一个模型的多个副本,每个机器分配到数据的一部分,然后将所有机器的计算结果按照某种方式合并。假设有一个多 GPU 集群系统。我们可以在同一台机器上采用模型并行化(在 GPU 之间切分模型) ,在机器之间采用数据并行化。何时使用分布式深度学习分布式的深度学习并不总是最佳的选择,需要视情况而定。分布式训练并不是免费 由于同步、数据和参数的网络传输等,分布式系统相比单机训练要多不少额外的必要开销。若要采用分布式系统,我们则希望增添机器带来的收益能够抵消那些必要开销。而且,分布式系统的初始化(比如搭建系统和加载数据)和超参数调优也比较耗时。因此,我们的建议非常简单:继续用单机训练网络模型,直到训练时间过长。有两种原因可能导致网络模型的训练时间过长:网络规模太大或是数据量太大。事实上,若这两者不匹配(大模型配小数据,小模型配大数据)这可能导致欠拟合和过拟合 都将导致最终训练得到的模型缺少泛化能力。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报