你的位置：首页 > 业界 > APU异构计算论文总结

APU异构计算论文总结

业界 admin 2025-01-31 2浏览 0评论

目录

Accelerated Processing Unit(APU) Potential N-body simulation case study
- 摘要
- 引言
- 主体
- 结论

链接：Accelerated Processing Unit(APU) Potential N-body simulation case study论文总结

Accelerated Processing Unit(APU) Potential N-body simulation case study

摘要

研究加速处理单元（APU）加速不规则/规则算法的效果
具体的方向是研究APU对于具有不规则的数据结构（如树）的应用程序的潜力，同时获取到APU与CPU共享功率和带宽资源
确定了APU可以被视为比GPU更便宜的解决方案的情况
使用两种不同实现的宇宙学N体模拟作为规则和不规则算法的案例研究
结论是在所有进行的测试中，GPU比APU更强大

引言

并行应用程序分为并行部分和串行部分
GPU执行并行部分，CPU执行串行部分和内存传输
GPU安装在（外围组件互连快速）PCIe总线上时，程序的性能会受到CPU和GPU之间数据传输的限制
因此引入将CPU和GPU融合在同一芯片上的APU，降低数据传输成本
但是当CPU处理计算密集型任务时，APU与CPU会共享一些资源，比如内存带宽和功耗，可能导致性能变差
离散GPU需要单独的内存空间以及CPU和GPU之间移动数据开销，显著增加功率消耗，但APU不会有这个问题
GPU对于控制规则、数据密集的算法效果很好，但是现实问题会涉及稀疏数据和基于指针的复杂数据结构，这也是本文的研究方向

主体

因为个人主要关注论文中关于APU的部分，所以略过宇宙学模拟的算法

递归方法不适用于GPU，因为指针访问内存操作会通过执行大量非协调内存访问（即内存访问序列化）而降低性能
GPU使用迭代树结构，APU使用SPC树结构（这里的树结构就是不规则数据结构）
先在CPU（Intel Core i7-4790）上测试BH算法，然后分别在GPU和APU（Intel HD 5500）上测试BH算法
再用常规（暴力）算法测试，没有CPU串行实现。GPU和APU（Intel HD 4600）的测试与BH算法类似，但这一次CPU（APU里面的）被密集的算术工作负载占用，以测试CPU繁忙时对APU性能的影响

结论

GPU在所有情况下都优于集成APU
APU显示出一些较小数据集的潜力
APU就较低的消耗而言，它的性能对于其他一些应用程序来说是可以接受的
降低运算强度，以及使用本地内存和设备的最大WG大小，使APU的性能比原始实现提高了94.6%

目录

Accelerated Processing Unit(APU) Potential N-body simulation case study
- 摘要
- 引言
- 主体
- 结论

链接：Accelerated Processing Unit(APU) Potential N-body simulation case study论文总结

Accelerated Processing Unit(APU) Potential N-body simulation case study

摘要

研究加速处理单元（APU）加速不规则/规则算法的效果
具体的方向是研究APU对于具有不规则的数据结构（如树）的应用程序的潜力，同时获取到APU与CPU共享功率和带宽资源
确定了APU可以被视为比GPU更便宜的解决方案的情况
使用两种不同实现的宇宙学N体模拟作为规则和不规则算法的案例研究
结论是在所有进行的测试中，GPU比APU更强大

引言

并行应用程序分为并行部分和串行部分
GPU执行并行部分，CPU执行串行部分和内存传输
GPU安装在（外围组件互连快速）PCIe总线上时，程序的性能会受到CPU和GPU之间数据传输的限制
因此引入将CPU和GPU融合在同一芯片上的APU，降低数据传输成本
但是当CPU处理计算密集型任务时，APU与CPU会共享一些资源，比如内存带宽和功耗，可能导致性能变差
离散GPU需要单独的内存空间以及CPU和GPU之间移动数据开销，显著增加功率消耗，但APU不会有这个问题
GPU对于控制规则、数据密集的算法效果很好，但是现实问题会涉及稀疏数据和基于指针的复杂数据结构，这也是本文的研究方向

主体

因为个人主要关注论文中关于APU的部分，所以略过宇宙学模拟的算法

递归方法不适用于GPU，因为指针访问内存操作会通过执行大量非协调内存访问（即内存访问序列化）而降低性能
GPU使用迭代树结构，APU使用SPC树结构（这里的树结构就是不规则数据结构）
先在CPU（Intel Core i7-4790）上测试BH算法，然后分别在GPU和APU（Intel HD 5500）上测试BH算法
再用常规（暴力）算法测试，没有CPU串行实现。GPU和APU（Intel HD 4600）的测试与BH算法类似，但这一次CPU（APU里面的）被密集的算术工作负载占用，以测试CPU繁忙时对APU性能的影响

结论

GPU在所有情况下都优于集成APU
APU显示出一些较小数据集的潜力
APU就较低的消耗而言，它的性能对于其他一些应用程序来说是可以接受的
降低运算强度，以及使用本地内存和设备的最大WG大小，使APU的性能比原始实现提高了94.6%

与本文相关的文章

评论列表 (0)

暂无评论