accelerated_computing

时间:2024-04-23 16:36:28
【文件属性】:

文件名称:accelerated_computing

文件大小:4KB

文件格式:ZIP

更新时间:2024-04-23 16:36:28

Cuda

笔记 编译并运行: nvcc -o out dim1operqtions.cu -run 性能分析: nsys profile --stats=true ./out后--stats=true ,如果我们要生成一个报告中,我们可以添加-o myreport APOD设计周期:评估,并行化,优化,部署。 可能的优化 更改执行上下文 设置块数= (N + threads - 1) / threads 设置一个具有多个块的网格,该块是流式多处理器(SM)数量的倍数 尽可能在GPU上初始化数据,以减少迁移(DtoH或HtoD)甚至页面错误的次数。 异步内存预取非常有效,并且可以大大减少操作数和内核运行时。 int deviceId; cudaGetDevice (&deviceId); cudadeviceProp props; cudaGetDeviceProperties (&props


【文件预览】:
accelerated_computing-master
----image.cpp(0B)
----.gitignore(6B)
----CMakeLists.txt(280B)
----README.md(4KB)
----vectorAdd.cu(2KB)

网友评论