目录
- Accelerated Processing Unit(APU) Potential N-body simulation case study
- 摘要
- 引言
- 主体
- 结论
链接:Accelerated Processing Unit(APU) Potential N-body simulation case study论文总结
Accelerated Processing Unit(APU) Potential N-body simulation case study
摘要
- 研究加速处理单元(APU)加速不规则/规则算法的效果
- 具体的方向是研究APU对于具有不规则的数据结构(如树)的应用程序的潜力,同时获取到APU与CPU共享功率和带宽资源
- 确定了APU可以被视为比GPU更便宜的解决方案的情况
- 使用两种不同实现的宇宙学N体模拟作为规则和不规则算法的案例研究
- 结论是在所有进行的测试中,GPU比APU更强大
引言
- 并行应用程序分为并行部分和串行部分
- GPU执行并行部分,CPU执行串行部分和内存传输
- GPU安装在(外围组件互连快速)PCIe总线上时,程序的性能会受到CPU和GPU之间数据传输的限制
- 因此引入将CPU和GPU融合在同一芯片上的APU,降低数据传输成本
- 但是当CPU处理计算密集型任务时,APU与CPU会共享一些资源,比如内存带宽和功耗,可能导致性能变差
- 离散GPU需要单独的内存空间以及CPU和GPU之间移动数据开销,显著增加功率消耗,但APU不会有这个问题
- GPU对于控制规则、数据密集的算法效果很好,但是现实问题会涉及稀疏数据和基于指针的复杂数据结构,这也是本文的研究方向
主体
因为个人主要关注论文中关于APU的部分,所以略过宇宙学模拟的算法
- 递归方法不适用于GPU,因为指针访问内存操作会通过执行大量非协调内存访问(即内存访问序列化)而降低性能
- GPU使用迭代树结构,APU使用SPC树结构(这里的树结构就是不规则数据结构)
- 先在CPU(Intel Core i7-4790)上测试BH算法,然后分别在GPU和APU(Intel HD 5500)上测试BH算法
- 再用常规(暴力)算法测试,没有CPU串行实现。GPU和APU(Intel HD 4600)的测试与BH算法类似,但这一次CPU(APU里面的)被密集的算术工作负载占用,以测试CPU繁忙时对APU性能的影响
结论
- GPU在所有情况下都优于集成APU
- APU显示出一些较小数据集的潜力
- APU就较低的消耗而言,它的性能对于其他一些应用程序来说是可以接受的
- 降低运算强度,以及使用本地内存和设备的最大WG大小,使APU的性能比原始实现提高了94.6%
目录
- Accelerated Processing Unit(APU) Potential N-body simulation case study
- 摘要
- 引言
- 主体
- 结论
链接:Accelerated Processing Unit(APU) Potential N-body simulation case study论文总结
Accelerated Processing Unit(APU) Potential N-body simulation case study
摘要
- 研究加速处理单元(APU)加速不规则/规则算法的效果
- 具体的方向是研究APU对于具有不规则的数据结构(如树)的应用程序的潜力,同时获取到APU与CPU共享功率和带宽资源
- 确定了APU可以被视为比GPU更便宜的解决方案的情况
- 使用两种不同实现的宇宙学N体模拟作为规则和不规则算法的案例研究
- 结论是在所有进行的测试中,GPU比APU更强大
引言
- 并行应用程序分为并行部分和串行部分
- GPU执行并行部分,CPU执行串行部分和内存传输
- GPU安装在(外围组件互连快速)PCIe总线上时,程序的性能会受到CPU和GPU之间数据传输的限制
- 因此引入将CPU和GPU融合在同一芯片上的APU,降低数据传输成本
- 但是当CPU处理计算密集型任务时,APU与CPU会共享一些资源,比如内存带宽和功耗,可能导致性能变差
- 离散GPU需要单独的内存空间以及CPU和GPU之间移动数据开销,显著增加功率消耗,但APU不会有这个问题
- GPU对于控制规则、数据密集的算法效果很好,但是现实问题会涉及稀疏数据和基于指针的复杂数据结构,这也是本文的研究方向
主体
因为个人主要关注论文中关于APU的部分,所以略过宇宙学模拟的算法
- 递归方法不适用于GPU,因为指针访问内存操作会通过执行大量非协调内存访问(即内存访问序列化)而降低性能
- GPU使用迭代树结构,APU使用SPC树结构(这里的树结构就是不规则数据结构)
- 先在CPU(Intel Core i7-4790)上测试BH算法,然后分别在GPU和APU(Intel HD 5500)上测试BH算法
- 再用常规(暴力)算法测试,没有CPU串行实现。GPU和APU(Intel HD 4600)的测试与BH算法类似,但这一次CPU(APU里面的)被密集的算术工作负载占用,以测试CPU繁忙时对APU性能的影响
结论
- GPU在所有情况下都优于集成APU
- APU显示出一些较小数据集的潜力
- APU就较低的消耗而言,它的性能对于其他一些应用程序来说是可以接受的
- 降低运算强度,以及使用本地内存和设备的最大WG大小,使APU的性能比原始实现提高了94.6%