2024年4月21日发(作者:鱼飞兰)
Intel视频编解码技术浅析
陈云海
【摘 要】针对目前高清、超清、VR视频业务大发展的需求,从Intel的核心视频处
理芯片技术、专用视频加速计算卡VCA2、应用层开发套件Intel media server
studio三个方面详细介绍了Intel最新的视频编解码技术及开发SDK,并阐述了视
频编解码技术未来的发展趋势.
【期刊名称】《广东通信技术》
【年(卷),期】2018(038)002
【总页数】4页(P8-11)
【关键词】视频;编解码;E3-1500;VCA2intel-media-server-studio
【作 者】陈云海
【作者单位】中国电信股份有限公司广东研究院云计算研究所
【正文语种】中 文
1 引言
近年视频业务出现爆炸性增长,VR、4K等超高码率业务也开始蓬勃兴起,根据
Intel公司的资料[1],2016年全球互联网流量的82%被视频占据,全球手机流量
的75%是视频应用消耗。这种通过任何设备、任何时间、任何地点的视频应用请
求驱动了端到云到端的图像处理技术的发展,整个基础IT技术和云服务都需要高
性能、可弹性扩展的方案来满足海量视频业务的需求。为了迎合这个需求,与视频
处理技术产品的另外两个巨头——NVIDA和AMD展开竞争,Intel也加强发力研
发视频编解码的相关技术及产品,整个技术方案上可以分为互相集成的两条线,面
向单机视频媒体处理的基于新一代Core i7/E3-1500系列处理器的技术产品以及
面向视频处理SaaS云的第二代专用视频加速计算卡VCA2的技术产品,软件及
API层就通过Intel media server studio开发套件的SDK向应用层提供GPU能
力调用。
2 Intel视频编解码技术的核心组件
新一代Core i7/E3-1500系列处理器是Intel视频编解码技术的核心组件。Xeon
是Intel面向服务器市场推出的处理器品牌,而Core i系列是面向桌面与笔记本市
场的品牌,Core i7和Xeon E3其实使用了相同的处理器核心,核心技术架构完
全一致。在早期的E3里面并没有集成Intel的核显芯片,但是在最新发布的Core
i7和Xeon E3都集成强大的Intel iris核显芯片(E3-1500 v5集成了iris580,
E3-1500 v6集成了iris630),E3-1500系列这个芯片还被集成到视频加速计算
卡VCA2中(一张卡上集成3颗E3-1500L),所以Core i7/E3-1500系列处理
器核心就成为整个Intel视频编解码技术的基石。根据Intel公司的技术文档[2],
E3-1500 v5产品家族比上一代产品E3-1200 v4有26%的图像处理能力提升,
E3-1500 v5最大可以实时处理18路H.264或者8路H.265高清流(1080P 30
fps),或者2路4K 30 fps的H.265超清流。与E3-1500配套的C236芯片组
提供了比前代更快的性能,最大支持64GB的2133 MHz的DDR4内存,以及更
快的IO接口如PCI-E2.0、6.0 Gbit/s的SATA6.0及USB3.0。另外,E3-1500支
持最新的Intel图形虚拟化技术GVT-s,这个技术允许较多的应用层并发访问虚拟
GPU能力,这个能力对构建SaaS视频云特别有意义,如图1所示。
图1 Intel Xeon Processor E3-1500 v5平台架构
Intel的核显从Haswell处理器的核芯显卡开始,英特尔将引入新的名字“Iris”和
“Iris Pro”,中文名为“锐炬”和“锐炬Pro”,分别对应GT3以及GT3e核显,
具体型号则是Iris Graphics 5100和Iris Pro Graphics 5200。Haswell采用的是
Gen7.5核显,这一代开始Intel的核显开始了模块化、可扩展的设计,Haswell
的显示核心采用两级EU团簇结构设计,上级的叫Slice,下级的叫Subslice,每
个Subslice拥有10个EU,2组Subslice单元组成了1组Slice单元,如图2所
示。
图2 Broadwell架构上的Gen8 GPU架构示意图
Broadwell架构上使用的是Gen8图形核心,Intel重新设计了Subslice单元,每
组的EU单元从之前的10个下降到了8个,在同样的采样器及调度器下这意味着
每个EU单元的效率提升了,而弥补EU数量可以通过提升Subslice单元总数来完
成,所以Broadwell的1组Slice单元有3组Subslice单元,EU单元总数是24
个,Broadwell的GT1、GT2、GT3核显分别拥有12个、24个和48个EU单元。
最新一代的Skylake架构使用的Gen9代GPU其实与Gen8有很多地方都是相似
的,每组Subslice单元依旧是24个EU,但是最多可以扩展到3组Slice单元,
也就是说最多会配备72个EU单元。Skylake的Gen9架 构 支 持DX12、
OpenCL 2.x、OpenGL 5.x、Vulkan等图形规范,支持新的编译器堆栈,功耗范
围从4W-65W+不等。此外,Gen9还支持HEVC/H.265、AVC、SVC、VP8、
MJPG硬件加速,支持摄像头RAW架构。多媒体方面,Gen9架构支持单一固定
功能单元以降低功耗,Quick Sync转码单元也设计了固定功能的编码器以降低功
耗、延迟。此外,Gen9的视频解码、转码加速还支持了HEVC(H.265)、VP8、
MJPEG等标准。
Intel的GPU由EU(slices)和Media Fixed Funtion(unslice)两部分构成,其中
Media Fixed Funtion又分为VDbox/MFX和VEbox/VQE两类组件。其中EU
是负责通用计算任务的执行单元,如执行绘图任务;Media Fixed Funtion通过
硬件加速处理特定的视频编码和帧处理算法,以达到高性能和低功耗的目标。
VDbox/MFX和VEbox/VQE的功能说明如表1所示。
表1 VDbox/MFX和VEbox/VQE功能说明VDbox/MFX的功能 VEbox/VQE的
功能① 比特流解码(BSD)② ENC(帧内预测、运动估算)③ PAK(量化、熵编
码、像素重建、运动补偿)① 降噪② 高级反交错(ADI)③ 局部自适应图像增强
(LACE)④ 相机处理特征功能(纹理、色调增强)
3 视频加速计算卡VCA2技术架构
在美国国家广播电视业协会 NAB 2017展会上,英特尔发布了第二代视觉计算加
速卡VCA 2。根据英特尔介绍,VCA 2足够应付4K 流媒体视频、3D 图形处理和
VR 虚拟显示等内容的加速编码和转码。在 VCA2内部,集成3个Xeon E3-
1500v5处理器(内置英特尔 Iris Pro P580图形处理单元),自带大容量内存。
该计算卡可以看成一个高密度刀片服务器,单卡上集成3个E3-1500v5处理分别
拥有独立的IO总线和内存,并在其上运行3个独立的操作系统分别跟宿主机的操
作系统通信。VCA2并非定位一般消费领域,主要面向云服务提供商、电信服务提
供商和机构等,重点是那些需要媒体编码转码加速的专业市场,如图3所示。
VCA2卡的基本情况如表2所示。
Intel VCA2上的3颗Intel Xeon e3-1500v5处理器,默认频率为3.0 GHz,可
以boost到3.7 GHz,最高支持DDR4 2133 MHz内存,每个处理器可以支持
16条PCI-E3.0通道,而GPU则是采用的是上一代集显中最为强大的Iris Pro
580,属于GT4e级别,拥有72个EU单元,并且集成有128MB eDRAM高速
缓存。根据Intel的资料[1],VCA2提供了强大视频转码能力,如表3所示。
4 Intel media server studio开发套件
Intel Media Server Studio是一个综合的软件开发工具套件,主要面向数据中心、
云提供商和网络媒体提供商的业务开发,为转码、直播、云游戏、虚拟桌面、视频
会议等应用提供一整套开发和调试环境。Intel Media Server Studio为开发人员
提供大量使用最先进技术的开发组件和技术特性,用来构建高性能的视频类应用。
Intel Media Server Studio支持Linux和Windows Server操作系统,并内置了
Intel Media and OpenCL SDK、runtimes、graphics drivers、高级性能和视频
质量分析工具。这些组件和工具可以帮助开发者实现实时4K 60 fps视频的HEVC
编解码,以及最大18路的30fps全高清AVC转码,如图4所示。
Intel Media Server Studio提供两种访问GPU能力的方法给开发者使用,第一种
是使用Intel SDK for OpenCL,这个SDK提供底层的调用能力去访问EU和核显
内存,并提供一个增强的扩展函数集去访问媒体固定函数能力,如快速傅里叶变换。
第二种是Intel Media SDK,提供高层的编解码能力调用以及经过优化的异步调用
框架。
5 总结
随着4K超清视频、秀场直播、人工智能、无人驾驶、5G、虚拟现实等领域的兴
起,全球正在进入数据洪流时代,Intel作为PC时代的老牌计算芯片巨头,也希
望依靠在这个时代凭借创新获得更大的发展机会。在视频云服务这个领域,目前
Intel瞄准了高密度高性能可扩展的编解码能力推出了强大的基于GPU和CPU混
合架构的产品,与该领域的传统领先厂商NVIDA和AMD展开竞争。对于该领域
的应用开发者,又多了一种构建业务系统的技术方案。随着业界巨头竞争的进行,
势必涌现出越来越完善的基础硬件产品,SDK必将提供更多更完备的API接口,
而视频业务也势必得到更加蓬勃的发展。
图3 Intel VCA2的硬件架构图
表2 VCA2卡的基本情况尺寸 Full-length,full-height,double-width PCIe*
card CPU (3) Intel® Xeon® E3-1500v5 product family processors,45 W
TDP,3.0 GHz,4 cores GPU GT4e,Iris Pro Graphics P580,128 MB eDRAM内存
DDR4 ECC SODIMMs,2 channels per CPU,Up to 64 GB per CPU PCI总线规
格 Gen3,x16,8 lanes per CPU主机操作系统 CentOS* 7.2 for Intel® VCA
software version 1.5 CentOS 7.3 for Intel VCA software version 2.0卡上操作
系统 CentOS 7.2 for Intel VCA software versions 1.5 and 2.0 Windows
Server* 2016 Windows* 10虚拟化支持 Xen KVM (Intel VCA software
versions 1.2 or earlier,and 2.0 or later)
表3 VCA2的视频转码性能数据视频转码能力每张卡能处理的实时视频流(30fps)
的数目1080P H.264→H.264 44 H.264→H.265 39 H.265→H.265 21 4K
H.264→H.264 14 H.264→H.265 11 H.265→H.265 7
图4 Intel Media Server Studio与底层硬件集成架构示意图
参考文献
1 vca-2-visual-compute-accelerator-product-brief
2 xeon-e3-1500-v5-product-brief
3 intel-media-server-studio-product-brief-080817
2024年4月21日发(作者:鱼飞兰)
Intel视频编解码技术浅析
陈云海
【摘 要】针对目前高清、超清、VR视频业务大发展的需求,从Intel的核心视频处
理芯片技术、专用视频加速计算卡VCA2、应用层开发套件Intel media server
studio三个方面详细介绍了Intel最新的视频编解码技术及开发SDK,并阐述了视
频编解码技术未来的发展趋势.
【期刊名称】《广东通信技术》
【年(卷),期】2018(038)002
【总页数】4页(P8-11)
【关键词】视频;编解码;E3-1500;VCA2intel-media-server-studio
【作 者】陈云海
【作者单位】中国电信股份有限公司广东研究院云计算研究所
【正文语种】中 文
1 引言
近年视频业务出现爆炸性增长,VR、4K等超高码率业务也开始蓬勃兴起,根据
Intel公司的资料[1],2016年全球互联网流量的82%被视频占据,全球手机流量
的75%是视频应用消耗。这种通过任何设备、任何时间、任何地点的视频应用请
求驱动了端到云到端的图像处理技术的发展,整个基础IT技术和云服务都需要高
性能、可弹性扩展的方案来满足海量视频业务的需求。为了迎合这个需求,与视频
处理技术产品的另外两个巨头——NVIDA和AMD展开竞争,Intel也加强发力研
发视频编解码的相关技术及产品,整个技术方案上可以分为互相集成的两条线,面
向单机视频媒体处理的基于新一代Core i7/E3-1500系列处理器的技术产品以及
面向视频处理SaaS云的第二代专用视频加速计算卡VCA2的技术产品,软件及
API层就通过Intel media server studio开发套件的SDK向应用层提供GPU能
力调用。
2 Intel视频编解码技术的核心组件
新一代Core i7/E3-1500系列处理器是Intel视频编解码技术的核心组件。Xeon
是Intel面向服务器市场推出的处理器品牌,而Core i系列是面向桌面与笔记本市
场的品牌,Core i7和Xeon E3其实使用了相同的处理器核心,核心技术架构完
全一致。在早期的E3里面并没有集成Intel的核显芯片,但是在最新发布的Core
i7和Xeon E3都集成强大的Intel iris核显芯片(E3-1500 v5集成了iris580,
E3-1500 v6集成了iris630),E3-1500系列这个芯片还被集成到视频加速计算
卡VCA2中(一张卡上集成3颗E3-1500L),所以Core i7/E3-1500系列处理
器核心就成为整个Intel视频编解码技术的基石。根据Intel公司的技术文档[2],
E3-1500 v5产品家族比上一代产品E3-1200 v4有26%的图像处理能力提升,
E3-1500 v5最大可以实时处理18路H.264或者8路H.265高清流(1080P 30
fps),或者2路4K 30 fps的H.265超清流。与E3-1500配套的C236芯片组
提供了比前代更快的性能,最大支持64GB的2133 MHz的DDR4内存,以及更
快的IO接口如PCI-E2.0、6.0 Gbit/s的SATA6.0及USB3.0。另外,E3-1500支
持最新的Intel图形虚拟化技术GVT-s,这个技术允许较多的应用层并发访问虚拟
GPU能力,这个能力对构建SaaS视频云特别有意义,如图1所示。
图1 Intel Xeon Processor E3-1500 v5平台架构
Intel的核显从Haswell处理器的核芯显卡开始,英特尔将引入新的名字“Iris”和
“Iris Pro”,中文名为“锐炬”和“锐炬Pro”,分别对应GT3以及GT3e核显,
具体型号则是Iris Graphics 5100和Iris Pro Graphics 5200。Haswell采用的是
Gen7.5核显,这一代开始Intel的核显开始了模块化、可扩展的设计,Haswell
的显示核心采用两级EU团簇结构设计,上级的叫Slice,下级的叫Subslice,每
个Subslice拥有10个EU,2组Subslice单元组成了1组Slice单元,如图2所
示。
图2 Broadwell架构上的Gen8 GPU架构示意图
Broadwell架构上使用的是Gen8图形核心,Intel重新设计了Subslice单元,每
组的EU单元从之前的10个下降到了8个,在同样的采样器及调度器下这意味着
每个EU单元的效率提升了,而弥补EU数量可以通过提升Subslice单元总数来完
成,所以Broadwell的1组Slice单元有3组Subslice单元,EU单元总数是24
个,Broadwell的GT1、GT2、GT3核显分别拥有12个、24个和48个EU单元。
最新一代的Skylake架构使用的Gen9代GPU其实与Gen8有很多地方都是相似
的,每组Subslice单元依旧是24个EU,但是最多可以扩展到3组Slice单元,
也就是说最多会配备72个EU单元。Skylake的Gen9架 构 支 持DX12、
OpenCL 2.x、OpenGL 5.x、Vulkan等图形规范,支持新的编译器堆栈,功耗范
围从4W-65W+不等。此外,Gen9还支持HEVC/H.265、AVC、SVC、VP8、
MJPG硬件加速,支持摄像头RAW架构。多媒体方面,Gen9架构支持单一固定
功能单元以降低功耗,Quick Sync转码单元也设计了固定功能的编码器以降低功
耗、延迟。此外,Gen9的视频解码、转码加速还支持了HEVC(H.265)、VP8、
MJPEG等标准。
Intel的GPU由EU(slices)和Media Fixed Funtion(unslice)两部分构成,其中
Media Fixed Funtion又分为VDbox/MFX和VEbox/VQE两类组件。其中EU
是负责通用计算任务的执行单元,如执行绘图任务;Media Fixed Funtion通过
硬件加速处理特定的视频编码和帧处理算法,以达到高性能和低功耗的目标。
VDbox/MFX和VEbox/VQE的功能说明如表1所示。
表1 VDbox/MFX和VEbox/VQE功能说明VDbox/MFX的功能 VEbox/VQE的
功能① 比特流解码(BSD)② ENC(帧内预测、运动估算)③ PAK(量化、熵编
码、像素重建、运动补偿)① 降噪② 高级反交错(ADI)③ 局部自适应图像增强
(LACE)④ 相机处理特征功能(纹理、色调增强)
3 视频加速计算卡VCA2技术架构
在美国国家广播电视业协会 NAB 2017展会上,英特尔发布了第二代视觉计算加
速卡VCA 2。根据英特尔介绍,VCA 2足够应付4K 流媒体视频、3D 图形处理和
VR 虚拟显示等内容的加速编码和转码。在 VCA2内部,集成3个Xeon E3-
1500v5处理器(内置英特尔 Iris Pro P580图形处理单元),自带大容量内存。
该计算卡可以看成一个高密度刀片服务器,单卡上集成3个E3-1500v5处理分别
拥有独立的IO总线和内存,并在其上运行3个独立的操作系统分别跟宿主机的操
作系统通信。VCA2并非定位一般消费领域,主要面向云服务提供商、电信服务提
供商和机构等,重点是那些需要媒体编码转码加速的专业市场,如图3所示。
VCA2卡的基本情况如表2所示。
Intel VCA2上的3颗Intel Xeon e3-1500v5处理器,默认频率为3.0 GHz,可
以boost到3.7 GHz,最高支持DDR4 2133 MHz内存,每个处理器可以支持
16条PCI-E3.0通道,而GPU则是采用的是上一代集显中最为强大的Iris Pro
580,属于GT4e级别,拥有72个EU单元,并且集成有128MB eDRAM高速
缓存。根据Intel的资料[1],VCA2提供了强大视频转码能力,如表3所示。
4 Intel media server studio开发套件
Intel Media Server Studio是一个综合的软件开发工具套件,主要面向数据中心、
云提供商和网络媒体提供商的业务开发,为转码、直播、云游戏、虚拟桌面、视频
会议等应用提供一整套开发和调试环境。Intel Media Server Studio为开发人员
提供大量使用最先进技术的开发组件和技术特性,用来构建高性能的视频类应用。
Intel Media Server Studio支持Linux和Windows Server操作系统,并内置了
Intel Media and OpenCL SDK、runtimes、graphics drivers、高级性能和视频
质量分析工具。这些组件和工具可以帮助开发者实现实时4K 60 fps视频的HEVC
编解码,以及最大18路的30fps全高清AVC转码,如图4所示。
Intel Media Server Studio提供两种访问GPU能力的方法给开发者使用,第一种
是使用Intel SDK for OpenCL,这个SDK提供底层的调用能力去访问EU和核显
内存,并提供一个增强的扩展函数集去访问媒体固定函数能力,如快速傅里叶变换。
第二种是Intel Media SDK,提供高层的编解码能力调用以及经过优化的异步调用
框架。
5 总结
随着4K超清视频、秀场直播、人工智能、无人驾驶、5G、虚拟现实等领域的兴
起,全球正在进入数据洪流时代,Intel作为PC时代的老牌计算芯片巨头,也希
望依靠在这个时代凭借创新获得更大的发展机会。在视频云服务这个领域,目前
Intel瞄准了高密度高性能可扩展的编解码能力推出了强大的基于GPU和CPU混
合架构的产品,与该领域的传统领先厂商NVIDA和AMD展开竞争。对于该领域
的应用开发者,又多了一种构建业务系统的技术方案。随着业界巨头竞争的进行,
势必涌现出越来越完善的基础硬件产品,SDK必将提供更多更完备的API接口,
而视频业务也势必得到更加蓬勃的发展。
图3 Intel VCA2的硬件架构图
表2 VCA2卡的基本情况尺寸 Full-length,full-height,double-width PCIe*
card CPU (3) Intel® Xeon® E3-1500v5 product family processors,45 W
TDP,3.0 GHz,4 cores GPU GT4e,Iris Pro Graphics P580,128 MB eDRAM内存
DDR4 ECC SODIMMs,2 channels per CPU,Up to 64 GB per CPU PCI总线规
格 Gen3,x16,8 lanes per CPU主机操作系统 CentOS* 7.2 for Intel® VCA
software version 1.5 CentOS 7.3 for Intel VCA software version 2.0卡上操作
系统 CentOS 7.2 for Intel VCA software versions 1.5 and 2.0 Windows
Server* 2016 Windows* 10虚拟化支持 Xen KVM (Intel VCA software
versions 1.2 or earlier,and 2.0 or later)
表3 VCA2的视频转码性能数据视频转码能力每张卡能处理的实时视频流(30fps)
的数目1080P H.264→H.264 44 H.264→H.265 39 H.265→H.265 21 4K
H.264→H.264 14 H.264→H.265 11 H.265→H.265 7
图4 Intel Media Server Studio与底层硬件集成架构示意图
参考文献
1 vca-2-visual-compute-accelerator-product-brief
2 xeon-e3-1500-v5-product-brief
3 intel-media-server-studio-product-brief-080817