ImageVerifierCode 换一换
格式:PPT , 页数:16 ,大小:1,015KB ,
资源ID:3833817      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-3833817.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(CUDA编程模型PPT课件.ppt)为本站会员(Facebook)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

CUDA编程模型PPT课件.ppt

1、CUDA/GPU 编程模型,周 斌 NVIDIA & USTC 2014年10月,内容,CPU和GPU互动模式GPU线程组织模型(不停强化)GPU存储模型基本的编程问题,CPU-GPU交互,各自的物理内存空间 通过PCIE总线互连(8GB/s16GB/s) 交互开销较大, NVIDIA Corporation,GPU存储器层次架构(硬件),访存速度,Register dedicated HW - single cycle Shared Memory dedicated HW - single cycle Local Memory DRAM, no cache - *slow* Global M

2、emory DRAM, no cache - *slow* Constant Memory DRAM, cached, 110s100s of cycles, depending on cache locality Texture Memory DRAM, cached, 110s100s of cycles, depending on cache locality Instruction Memory (invisible) DRAM, cached,GPU架构回顾,GPU线程组织模型,线程组织架构说明,一个Kernel具有大量线程 线程被划分成线程块blocks 一个block内部的线程共

3、享 Shared Memory 可以同步 _syncthreads()Kernel启动一个grid,包含若干线程块 用户设定线程和线程块具有唯一的标识,GPU线程映射关系,GPU内存和线程等关系,12,编程模型,常规意义的GPU用于处理图形图像操作于像素,每个像素的操作都类似可以应用SIMD (single instruction multiple data),13,SIMD (Single Instruction Multiple Data),也可以认为是数据并行分割,14,Single Instruction Multiple Thread (SIMT),GPU版本的 SIMD大量线程模型

4、获得高度并行线程切换获得延迟掩藏多个线程执行相同指令流GPU上大量线程承载和调度,CUDA编程模式:Extended C,Declspecs global, device, shared, local, constant关键词 threadIdx, blockIdx Intrinsics _syncthreads运行期API Memory, symbol, execution management函数调用,_device_ float filterN; _global_ void convolve (float *image) _shared_ float regionM;. regionthreadIdx = imagei; _syncthreads() . imagej = result; / Allocate GPU memory void *myimage = cudaMalloc(bytes)/ 100 blocks, 10 threads per block convolve (myimage);,CUDA 函数声明,_global_ 定义一个 kernel 函数 入口函数,CPU上调用,GPU上执行 必须返回void _device_ and _host_ 可以同时使用,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报