一种基于流水线的MQ编码器FPGA设计-USB迷|专注于互联网分享

2024年5月17日发(作者：轩辕苑)

维普资讯

第３０卷第４期　

２００７年８月　

电子器件　

Ｃｈｉｎｅｓｅ　Ｊｏｕｍａｌ　Ｏｆ　Ｅｌｅｃｔｒｏｎ　Ｄｅｖｉｃｅｓ　

Ｖ０１．３Ｏ　Ｎｏ．４　

Ａｕｇ．２００７　

ＦＰＧＡ　Ｄｅｓｉｇｎ　ｏｆ　Ｐｉｐｅｌｉｎｅ－Ｂａｓｅｄ　ＭＱ　Ｃｏｄｅｒ　

ＬＵＹａｎ，ＷＡＮＧ　Ｃｈａｏ，ＬＪＪｉｅ，ＣＡＯＰｅｎｇ　

（Ｎａｔｉｏｎａｌ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｒｅｓｅａｒｃｈ　Ｃｅｎｔｅｒ　ｆｏｒＡｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅ　Ｃｉｒｃｕｉｔ　Ｓｙｓｔｅｍ，Ｓｏｕｔｈｅａｓｔ　Ｕｎｉｖｅｒｓｉｔｙ，Ｎａ　ｉｎｇ　２１００９６，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ａ　ｆｏｕｒ－ｓｔａｇｅ　ｐｉｐｅｌｉｎｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ　ＭＱ　ｃｏｄｅｒ　ｆｏｒ　ＪＰＥＧ２０００　ｓｔａｎｄａｒｄ　ｉｓ　ｐｒｅｓｅｎｔｅｄ．Ｔｏ　ｓｏｌｖｅ　ｔｈｅ　

ｐｒｏｂｌｅｍ　ｏｆ　ｆｅｅｄｂａｃｋ　ｉｎ　ｔｈｅ　ｃｏｎｖｅｎｔｉｏｎａｌ　ＭＱ　ｃｏｄｅｒ　ｉｎ　ＪＰＥＧ２０００，ｗｅ　ｕｓｅｄ　ａ　ｎｅｗ　ｍｅｔｈｏｄ　ｏｆ　ｕｐｄａｔｉｎｇ　ＣＸ　ｔａ—　

ｂｌｅ．Ｔｈｒｏｕｇｈ　ｔｈｅ　ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　ｌｅａｄｉｎｇ　ｚｅｒｏ　ｆｏｒｗａｒｄｉｎｇ　ｄｅｔｅｃｔｉｏｎ　ａｎｄ　ｂｙｔｅ　ｏｕｔ　ｂｕｆｆｅｒ　ｗｅ　ｉｍｐｒｏｖｅｄ　ｔｈｅ　ｅｆｆｉ—　

ｃｉｅｎｃｙ　ｏｆ　ｅｎｃｏｄｉｎｇ．Ｉｎ　ａｄｄｉｔｉｏｎ，ｗｅ　ｏｐｔｉｍｉｚｅｄ　ｔｈｅ　ａｒｉｔｈｍｅｔｉｃ　ｏｆ　ｃｒｉｔｉｃａｌ　ｐａｔｈ　ａｎｄ　ｔｈｅｎ　ｉｎｃｒｅａｓｅｄ　ｔｈｅ　ｃｌｏｃｋ　

ｒａｔｅ　ｏｆ　ｔｈｅ　ｓｙｓｔｅｍ．Ｗｅ　ｈａｖｅ　ｉｍｐｌｅｍｅｎｔｅｄ　ｔｈｅ　ｄｅｓｉｇｎ　ｉｎ　ＶＨＤＬ　ＲＴＬ　ｏｎ　ｔｈｅ　ＦＰＧＡ．Ｅｘｐｅｒｉｍｅｎｔａ１　ｒｅｓｕｌｔ　

ｓｈｏｗｓ　ｔｈａｔ　ｔｈｅ　ｎｅｗ　ＭＱ　ｃｏｄｅｒ　ｃａｎ　ｐｒｏｃｅｓｓ　ｏｎｅ　ｓｙｍｂｏｌ　ｐｅｒ　ｃｌｏｃｋ　ｃｙｃｌｅ　ａｎｄ　ｃａｎ　ｗｏｒｋ　ｕｐ　ｔｏ　９９．６６　ＭＨｚ　ｏｎ　

Ａｌｔｅｒａ＇ＳｔｒａｔｉｘＩＩ　ＥＰ２Ｓ６Ｏ１Ｏ２ＯＣ４．　

Ｋｅｙ　ｗｏｒｄｓ：ＪＰＥＧ２０００；ｐｉｐｅｌｉｎｅ；ＭＱ　ｃｏｄｅｒ　

ＥＥＡＣＣ：６１２０Ｂ　

一

种基于流水线的ＭＱ编码器ＦＰＧＡ设计　

陆　燕，王　超，李　杰，曹　鹏　

（东南大学国家专用集成电路系统工程技术研究中心，南京２１００９６）　

摘　要：提出了一种应用于ＪＰＥＧ２０００标准的４级流水线ＭＱ编码器设计方案．采用状态超前更新，前导０位超前检测和字　

节输出缓冲策略，解决了在上下文（ｃｘ）状态表更新、归一化及字节输出过程中的反馈和循环等问题，提高了编码效率．同时，　

对关键路径处算法进行优化，提高了系统工作的时钟频率．该设计使用ＶＨＤＬ语言在ＲＴＬ级描述，并在ＦＰＧＡ上对其进行了　

仿真验证．实验表明，在Ａｌｔｅｒａ的ＳｔｒａｔｉｘＩＩ　ＥＰ２Ｓ６０１０２０ＣＡ上，编码器的工作效率可以达到１ＣｘＤ／ｃｙｃｌｅ，最高工作时钟频率可　

达９９．６６　ＭＨｚ．　

关键词：ＪＥＰＧ２０００；流水线；ＭＱ编码器　

中图分类号：ＴＮ９１９．３　文献标识码：Ａ　文章编号：ｌ００５－９４９０（２００７）０４－ｌ３ｌ４－０４　

ＪＰＥＧ２０００标准＿１］是ＩｓＯ／ＩＥＣ制定的新一代　

图像压缩标准，在主观图像质量、支持渐进图像传　

输、感兴趣图像编码和抗误码性能上优于传统的　

ＪＥＰＧ标准．ＪＥＰＧ２０００中的关键算法是离散小波变　

换（ＤＷＴ）和优化截断的嵌入式位平面编码（ＥＢ－　

消耗了ＪＥＰＧ２０００编码系统中大部分的计算时间　

（约７０　ｌ２ｊ）．ＭＱ编码器继承了ＪＢＩＧ中使用的　

ＱＭ编码器，利用Ｑ编码器的字节输出技术．虽然　

ＭＱ编码器省略了乘法运算，但频繁的区间重归一　

化和复杂的字节输出使得ＪＰＥＧ　２０００标准中基于　

ＣＯＴ）．ＥＢＣＯＴ包含两个部分：Ｔｉｅｒ１和Ｔｉｅｒ２．Ｔｉｅｒ１　

是一个基于上下文的熵编码器，由位平面编码和算　

术编码（ＭＱ编码）组成．Ｔｉｅｒｚ是一个压缩后率分配　

处理器．　

软件执行的ＭＱ编码流程效率很低．　

为了提高硬件实现的ＭＱ编码器的执行效　

率，本文设计了一种基于流水线的ＭＱ编码器．　

针对编码过程中的反馈和循环问题，采用了状态　

在ＪＰＥＧ２０００中使用ＭＱ编码器作为熵编码　

器，它的编码效率是ＥＢＣＯＴ编码的关键．而ＥＢ－　

Ｃ０Ｔ又是ＪＥＰＧ２０００中最复杂的部分，其中Ｔｉｅｒ　

收稿日期：２００６—０９一．１１　

超前更新，前导０位超前检测和字节输出缓冲等　

加速技术．同时，对电路进行优化，缩短关键路　

径，从而提高系统工作的时钟频率．最终，在ＦＰ－　

作者简介：陆燕（１９８２－），女，硕士研究生．　亢方向为数字信号处理的硬件实现以及嵌入式系统的开发，Ｌｕｙａｎ

ｓｅｕ＠１６３．ｃｏｎ３．　

＿

维普资讯

第４期　陆燕，王超等：一种基于流水线的ＭＱ编码器ＦＰＧＡ设计　１３１５　

ＧＡ上以较优的资源和较高的运行速度实现了该　

算法．本文的结构如下：第二部分主要论述基于　

ＭＱ编码的原理；第三部分详细介绍了ＭＱ编码　

器的流水线架构及其采用的改进技术；第四部分　

给出实验结果和结论．　

１　ＭＱ编码的原理　

二进制算术编码的基本操作是递归划分当前子　

区间．当编码器接收到一个新的待压缩码，当前子区　

间会被划分成更小的两个子区间．子区间的左边界　

值被更新为新子区间的低边界；子区间的间隔值也　

更新为新子区间的间隔．　

在ＭＱ编码器中，用寄存器Ａ来记录当前子　

区间的间隔值，用寄存器Ｃ来记录当前子区间的　

左边界值．当编码器接收到一个新的待压缩码，　

编码器从概率估值表查找相应的概率值Ｑｅ．根　

据接受的待压缩码的类型，寄存器Ａ的值和寄存　

器Ｃ的值被更新，更新情况如下：当接受大概率　

符号时，进行大概率编码ＭＰＳ：Ａ—Ａ—Ｑｅ，Ｃ—　

Ｃ＋Ｑｅ；当接受小概率符号时，进行小概率编码　

ＬＰＳ：Ａ—Ｑｅ，Ｃ—Ｃ．　

在实际操作时，Ａ用１６位寄存器表示，Ｃ用２８　

位寄存器表示（一个进位位，一个部分编码字节，三　

个间隔位和１６位的有效区域）．由于寄存器位数有　

限，Ａ需满足ｏ．７５＜Ａ＜１．５，当Ａ＜０ｘ８０００Ｈ（即　

０．７５）时，需对Ａ和Ｃ分别左移，直到Ａ≥　

０ｘ８０００Ｈ，称为重归一化．同时，由于ＭＱ算法在进　

行区间计算时省略了乘法的近似，使得可能发生　

ＬＰＳ子区间大于ＭＰＳ子区间的情况．为了避免这　

种情况，采用区间条件交换，即当Ｑｅ＞Ａ—Ｑｅ（Ａ＜　

２Ｑｅ）时，将ＭＰＳ与ＬＰＳ互换．　

为了实现自适应，算术编码要使用两种表，ＣＸ　

状态表和概率估值表．ＣＸ状态表：ＭＱ编码器使用　

基于上下文（ＣＸ）的概率估计．在ＪＥＰＧ２０００中指定　

的上下文为１９个．每一个上下文都有自己的状态，　

每个状态包含概率估值表的索引（用６位表示）和大　

概率符号值ｍｐｓ（１位）；概率估值表：是一个可以对　

原始数据快速适应的复杂概率自动估计模型．该模　

型是一个具有４７个状态的有限状态机．每个状态包　

含小概率符号ＬＰＳ的概率值Ｑｅ（用１５位表示）、下　

一

个状态的索引ＮＭＰＳ和ＮＩ　ＰＳ（分别用６位表　

示）、是否需要交换ＭＰＳ和ＬＰＳ所代表符号的标志　

ＳＷＩＴＣＨ（１位），共２８位．具体的概率估值表见文　

献［３］．　

下面是ＭＱ编码的总流程．　

图１　ＭＱ编码流程Ｌ　ｊ　

２　ＭＱ编码器的流水线设计　

本文设计的ＭＱ编码器，采用４级流水线实　

现．该编码器以文献［２］中ＭＱ编码器的架构为基　

础，并利用了一些加速技术对其进行改进．改进后的　

ＭＱ编码器４级流水线架构如图２所示．　

图２　ＭＱ编码器４级流水线架构图　

下面分析编码的４级流水线：　

阶段１：存放了两张表，ＣＸ状态表（用ＲＡＭ实　

现）和扩展的概率估值表（用Ｒ０Ｍ实现）．其中，扩　

展的概率估值表对标准中的概率估值表进行了扩　

展，把概率值Ｑｅ的前导零位数（ＬＺ）也存入当前状　

态．这只需要把原来的概率估值表扩展４位．　

输入ＣＸ、Ｄ，由输入的ＣＸ来查询ＣＸ状态表，可　

得到概率估值表的索引和ｎａｐｓ值．根据ｎａｐｓ的值判　

断对当前输入进行大概率（ＭＰＳ）编码还是小概率　

（ＬＰＳ）编码；根据索引值，从概率估值表中得到当前　

输入的概率值Ｑｅ，前导零位数ＬＺ以及下一个状态信　

息．当条件满足时，用下一个状态更新ＣＸ状态表．ＣＸ　

状态表的更新需要阶段２的反馈信息．　

维普资讯

１３１６　电　子　器件　第３０卷　

在文献Ｅ５３中首次提出了使用流水线来实现　

ＪＢＩＧ的ＭＱ编码，并解决了流水线实现的关键点，　

即输入连续上下文（ＣＸ）时ＣＸ状态表的更新和算　

术编码器所用的ＬＰＳ概率值Ｑｅ的读取．但是这种　

结构需要扩展概率估值表，把下一次ＬＰＳ和ＭＰＳ　

的概率值也存入当前状态，这就使ＲＯＭ从原来的　

２８位增加到５８位．本文采用了超前技术更新ＣＸ状　

态表，不需要对概率估值表进行概率值扩展．如图３　

所示，假如两个连续的的ＣＸ—Ｄ对具有相同的　

ＣＸ，并且第一对数据引起了重归一化，更新的下一　

个状态值直接通过多路选择器送到概率估值表．由　

于有１９个上下文，每个上下文的状态需要７个数据　

位的ＲＡＭ；有４７个概率估值表索引，每个索引的　

状态需要３２个数据位的ＲＯＭ，因此该ＭＱ编码器　

实现概率估值所占用的资源为１９×７＋４７×３２—１　

６３７个存储位．　

图３采用超前技术的ＣＸ表更新　

阶段２：主要功能是有进行区间条件交换判断，　

更新寄存器Ａ中的信息并对Ａ进行重归一化．新的　

间隔为Ａ或者Ａ＿Ｑｅ．　

寄存器Ａ更新后，当其值小于０ｘ８０００Ｈ时，对　

其左移．从ＪＰＥＧ２０００标准中的概率估值表中可以　

发现，最小的ＬＰＳ概率为０ｘ０００１，因此编码区间重　

归一化流程最坏情况是循环１５次，即需要移位１５　

次．这造成编码的效率极其低下．为了提高编码效　

率，可以先确定左移的移位值，然后送入移位寄存　

器，在一个周期内完成所有移位ｌ６］．　

移位值的确定需要计算前导零位数．本文采用　

了前导零超前检测方法ｌ７］，大大减少了移位值计算　

中的延时．在进行ＬＰＳ编码时，Ａ—Ｑｅ，概率值Ｑｅ　

的前导零位数可以从阶段１中的概率估值表中得　

到，这个数即为需要左移的移位值，可以直接送入移　

位寄存器；在进行ＭＰＳ编码时，注意到Ａ寄存器的　

最小值为０ｘ８０００，概率值Ｑｅ的最大值为０ｘ５６０１，　

因此Ａ—Ｑｅ的最小值为０ｘ２９ＦＦ，只有两个前导零，　

只需要检测最高两位．　

在ＭＱ编码的流水线设计完成后，发现关键路　

径存在于ｓｔａｇｅ２．因此对Ａ寄存器的算法进行了优　

化．Ａ＜２Ｑｅ（比较器）可以用Ａ＿２Ｑｅ（减法器）是否产　

生了借位来实现，对寄存器Ａ的算法优化后，结构　

如图４所示．　

图４优化的寄存器Ａ算法结构　

阶段３：主要功能是更新Ｃ寄存器中的信息和　

对其进行重归一化．标准中的寄存器ｃ为２８位，为　

了缩短关键路径，只把寄存器Ｃ中的１６位有效区　

域放入阶段３中，相应的用来更新Ｃ寄存器的２８位　

加法器也减少为１６位．寄存器Ｃ的具体算法和阶　

段２中的寄存器Ａ相似．　

阶段４：主要完成字节输出功能．采用文献［８］　

的字节输出缓冲技术，使复杂的字节输出流程可以　

在一个周期内完成．字节输出过程的结构如图５所　

示．　

移位值　Ｃ１　７ｆ带进位位）　

图５字节输出过程的结构　

区间重归一化的过程中伴随着字节输出．有三　

种可能情况：不需要进行字节输出，需要进行１个字　

节或２个字节的字节输出．因此需要对字节输出机　

制作改进．在阶段３中已经限制Ｃ寄存器为１６位，　

通过观察可以发现只有当寄存器Ｃ的有效部分移　

出１９位时才会发生字节输出．本文的设计中把标准　

中的４位ＣＴ减法计数器调整为５位加法计数器，　

并使用一个１８位的辅助缓存器．当同时发射０，１或　

２个字节到压缩位流中时，从寄存器Ｃ左移出的所　

有位都可以在一个时钟内存到辅助缓存器中．当加　

法记数器中的值大于２７时，有两个字节需要输出；　

当值小于２７并且大于１９时有１个字节输出；小于　

１９时没有字节输出．　

维普资讯

第４期　陆燕，王超等：一种基于流水线的ＭＱ编码器ＦＰＧＡ设计　１３１７　

３实现结果及性能分析　

ｔ，２２７２个存储位（ＦＩ￣Ａ实现需要的存储位个数与　

本文第三部分预测的存储位个数不同，因为综合器把　

文中所描述的ＭＱ编码器用ＶＨＤＬ语言进行　

ＲＡＭ和ＲＯＭ的地址位取成２的整数倍）．该ＭＱ编码　

ＲＴＬ级描述，并且在Ｍｏｄｅｌｓｉｍ环境下进行仿真仿真　

器工作效率可以达到１ＣｘＤ／ｃｙｃｌｅ，最高工作时钟频率　

结果与ＪＥｌｌ２０００推荐的标准算法软件Ｊａｓｐｅｒ的计算　

可达９９．６６ＭＨａ因此，该编码器的工作速度可以达到　

结果一致．将实现的代码进行ＦＰＧＡ验证，选用的器件　

９９．６６ＭＣｘＤ／ｓ．将本文所描述的编码器与文献［８］中设　

为Ａｌｔｅｒａ公司的ＳｔｒａｔｉｘＩＩ　ＥＰ２Ｓ６０１０２０ＣＡ，并用Ｑｕａｒ—　

计的一种３级流水线结构的算术编码器进行比较，结　

ｔｕｓＩＩ进行综合．结果表明该ＭＱ编码器使用了７５７个　

果见表１．　

表１性能比较　

从比较结果可以看出，本文描述的算术编码的　

Ｌｉａｎ　Ｃ　Ｊ，Ｃｈｅｎ　Ｋ　Ｆ，Ｃｈｅｎ　Ｈ　Ｈ，ａｎｄ　Ｃｈｅｎ　Ｌ　Ｇ．Ａｎａｌｙｓｉｓ　ａｎｄ　

优点在于改进了算法，提高了编码器工作的时钟频　

Ａｒｃｈｉｔｅｃｔｕｒｅ　Ｄｅｓｉｇｎ　ｏｆ　Ｂｌｏｃｋ－Ｃｏｄｉｎｇ　Ｅｎｇｉｎｅ　ｆｏｒ　ＥＢＣＯＴ　ｉｎ　

率，从而提高了编码器的吞吐率．　

ＪＰＥＧ　２ｏｏｏ　，ｌＪ］．ＩＥＥＥ　Ｔｒａｎｓ．Ｃｉｒｃｕｉｔｓ　Ｓｙｓｔ．Ｖｉｄｅｏ　Ｔｅｃｈｎｏｌ，　

Ｍａ　ｒ．２００３，１３（３）：２１９—２３０．　

４结论　

ＩＳ（）／ＩＥＣ．ＦＣＤ　１５４４４２１，Ｆｉｎａ１　ｏＣｍｍｉｔｔｅｅ　Ｄｒａｆｔ，ＪＰＥＧ２０００　

Ｉｍａｇｅ　ｏＣｄｉｎｇ　ＳｙｓｔｅｍＳｌ，Ｚ］．　

在ＪＰＥＧ２０００编码系统中，针对ＭＱ编码器的　

Ａｃｈａｒｙａ　Ｔｉｎｋｕ，Ｔｓａｉ　Ｐｉｎｇ－Ｓｉｎｇ，ＪＰＥＧ２０００　Ｓｔａｎｄａｒｄ　ｆｏｒ　Ｉｍ—　

硬件实现，提出了一种４级流水线设计方案．该方案　

ａｇｅ　Ｃｏｍｐｒｅｓｓｉｏｎ　Ｃｏｎｃｅｐｔｓ，Ａｌｇｏｒｉｔｈｍｓ　ａｎｄ　ＶＩ　ＳＩ　Ａｒｃｈｉｔｅｃ—　

采用了流水线设计思想以提高系统时钟的工作频　

ｔｕｒｅｓｌ，Ｍ］．ＷＩＬＥＹ—ＩＮＴＥＲＳＣＩＥＮＣＥ．２００５．　

Ｔａｒｕｉ　Ｍ，Ｏｓｈｉｔａ　Ｍ，Ｏｎｏｙｅ　Ｔ，ａｎｄ　Ｓｈｉｒａｋａｗａ　Ｉ，Ｈｉｇｈ－Ｓｐｅｅｄ　Ｉｍ—　

率，为了进一步提高运算速度，给出了改进方案，通　

ｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ＪＢＩＧ　Ａｒｉｔｈｍｅｔｉｃ　ｃｏｄｅｒ［－Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　

过零位超前检测和字节输出缓冲策略以及对寄存器　

ＩＥＥＥ　Ｒｅｇｉｏｎ　１０　Ｃｏｎｆｅｒｅｎｃｅ，Ｓｅｐｔｅｍｂｅｒ　１９９９，２：１２９１—１２９４．　

Ａ的算法优化，缩短关键路径．并且在ＦＰＧＡ上得　

Ｈｓｉａｏ　Ｙｕｎ＿Ｔａｉ，Ｌｉｎ　Ｈｕｎｇ－ｅＤｒ，Ｌｅｅ　Ｋｕｎ－Ｂｉｎ　ａｎｄ　Ｊｅｎ　Ｃｈｅｉｎ－　

以实现．结果验证了该设计在功能上的正确性．　

Ｗｅｉ．Ｈｉｇｈ—Ｓｐｅｅｄ　Ｍｅｍｏｒｙ－Ｓａｖｉｎｇ　Ａｒｃｈｉｔｅｃｔｕｒｅ　ｏｆｒ　ｔｈｅ　Ｅｍｂｅｄ—　

流水线结构的ＭＱ编码器设计，对ＪＰＥＧ２０００　

ｄｅｄ　Ｂｌｏｃｋ　Ｃｏｄｉｎｇ　ｉｎ　ＪＰＥＧ２０００　，ＩＣ］／／ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍ—　

ｐｏｓｉｕｍ　ｏｎ　Ｃｉｒｃｕｉｔｓ　ａｎｄ　Ｓｙｓｔｅｍｓ，Ｍａｙ　２００２，５：１３３—１３６．　

ＡＳＩＣ的设计意义重大，该方案实现了１个时钟编码　

Ｄｙｅｒ　Ｍ，Ｔａｕｂｍａｎ　Ｄ，ａｎｄ　Ｎｏｏｓｈａｂａｄｉ　Ｓ，Ｉｍｐｒｏｖｅｄ　Ｔｈｒｏｕｇｈ—　

１个输入，提高了整个系统数据流的实时Ｉ生．　

ｐｕｔ　Ａｒｉｔｈｍｅｔｉｃ　ｏＣｄｅｒ　ｏｆｒ　ＪＰＥＧ２０００Ｉ，Ｊ］．Ｐｒｏｃ．Ｉｎｔｅｒｎａｔｉｏｎ　ｏＣｎ—　

ｆｅｒｅｎｃｅ　ｏｎ　Ｉｍａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ（ＩＣＩＰ’Ｏ４），２００４．　

参考文献：　

Ｍｉｃｈａｅ１　Ｄｙｅｒ，Ｄａｖｉｄ　Ｔａｕｂｍａｎ，Ｓａｌｅｄ　Ｎｏｏｓｈａｂａｄｉ　ａｎｄ　Ａｍｉｔ　

Ｅｌｉ　Ｔａｕｂｍａｎ　Ｄａｖｉｄ　Ｓ，Ｍａｒｃｅｌｌｉｍ　Ｍｉｃｈａｅｌ　Ｗ编著，魏江力、柏正尧　

Ｋｕｍａｒ　Ｇｕｐｔａ．Ｃｏｎｃｕｒｒｅｎｃｙ　Ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　Ａｒｉｔｈｍｅｔｉｃ　Ｃｏｄｉｎｇ　

等译，赵保军审校，ＪＰＥＧ２０００图像压缩基础、标准和实践Ｉ－Ｍ］．　

ｉｎ　ＪＰＥＧ２０００　，ｌＪ］．Ｃｉｒｃｕｉｔｓ　ａｎｄ　Ｓｙｓｔｅｍｓ　Ｉ：Ｒｅｇｕｌａｒ　Ｐａｐｅｒｓ，　

电子工、ｌ　出版社，２００５．　

ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ，Ｊｕｎｅ　２００６，５３（６）：１２０３—１２１３．　

2024年5月17日发(作者：轩辕苑)

维普资讯

第３０卷第４期　

２００７年８月　

电子器件　

Ｃｈｉｎｅｓｅ　Ｊｏｕｍａｌ　Ｏｆ　Ｅｌｅｃｔｒｏｎ　Ｄｅｖｉｃｅｓ　

Ｖ０１．３Ｏ　Ｎｏ．４　

Ａｕｇ．２００７　

ＦＰＧＡ　Ｄｅｓｉｇｎ　ｏｆ　Ｐｉｐｅｌｉｎｅ－Ｂａｓｅｄ　ＭＱ　Ｃｏｄｅｒ　

ＬＵＹａｎ，ＷＡＮＧ　Ｃｈａｏ，ＬＪＪｉｅ，ＣＡＯＰｅｎｇ　

Ａｌｔｅｒａ＇ＳｔｒａｔｉｘＩＩ　ＥＰ２Ｓ６Ｏ１Ｏ２ＯＣ４．　

Ｋｅｙ　ｗｏｒｄｓ：ＪＰＥＧ２０００；ｐｉｐｅｌｉｎｅ；ＭＱ　ｃｏｄｅｒ　

ＥＥＡＣＣ：６１２０Ｂ　

一

种基于流水线的ＭＱ编码器ＦＰＧＡ设计　

陆　燕，王　超，李　杰，曹　鹏　

（东南大学国家专用集成电路系统工程技术研究中心，南京２１００９６）　

摘　要：提出了一种应用于ＪＰＥＧ２０００标准的４级流水线ＭＱ编码器设计方案．采用状态超前更新，前导０位超前检测和字　

节输出缓冲策略，解决了在上下文（ｃｘ）状态表更新、归一化及字节输出过程中的反馈和循环等问题，提高了编码效率．同时，　

对关键路径处算法进行优化，提高了系统工作的时钟频率．该设计使用ＶＨＤＬ语言在ＲＴＬ级描述，并在ＦＰＧＡ上对其进行了　

达９９．６６　ＭＨｚ．　

关键词：ＪＥＰＧ２０００；流水线；ＭＱ编码器　

中图分类号：ＴＮ９１９．３　文献标识码：Ａ　文章编号：ｌ００５－９４９０（２００７）０４－ｌ３ｌ４－０４　

ＪＰＥＧ２０００标准＿１］是ＩｓＯ／ＩＥＣ制定的新一代　

图像压缩标准，在主观图像质量、支持渐进图像传　

输、感兴趣图像编码和抗误码性能上优于传统的　

ＪＥＰＧ标准．ＪＥＰＧ２０００中的关键算法是离散小波变　

换（ＤＷＴ）和优化截断的嵌入式位平面编码（ＥＢ－　

消耗了ＪＥＰＧ２０００编码系统中大部分的计算时间　

（约７０　ｌ２ｊ）．ＭＱ编码器继承了ＪＢＩＧ中使用的　

ＱＭ编码器，利用Ｑ编码器的字节输出技术．虽然　

ＭＱ编码器省略了乘法运算，但频繁的区间重归一　

化和复杂的字节输出使得ＪＰＥＧ　２０００标准中基于　

ＣＯＴ）．ＥＢＣＯＴ包含两个部分：Ｔｉｅｒ１和Ｔｉｅｒ２．Ｔｉｅｒ１　

是一个基于上下文的熵编码器，由位平面编码和算　

术编码（ＭＱ编码）组成．Ｔｉｅｒｚ是一个压缩后率分配　

处理器．　

软件执行的ＭＱ编码流程效率很低．　

为了提高硬件实现的ＭＱ编码器的执行效　

率，本文设计了一种基于流水线的ＭＱ编码器．　

针对编码过程中的反馈和循环问题，采用了状态　

在ＪＰＥＧ２０００中使用ＭＱ编码器作为熵编码　

器，它的编码效率是ＥＢＣＯＴ编码的关键．而ＥＢ－　

Ｃ０Ｔ又是ＪＥＰＧ２０００中最复杂的部分，其中Ｔｉｅｒ　

收稿日期：２００６—０９一．１１　

超前更新，前导０位超前检测和字节输出缓冲等　

加速技术．同时，对电路进行优化，缩短关键路　

径，从而提高系统工作的时钟频率．最终，在ＦＰ－　

作者简介：陆燕（１９８２－），女，硕士研究生．　亢方向为数字信号处理的硬件实现以及嵌入式系统的开发，Ｌｕｙａｎ

ｓｅｕ＠１６３．ｃｏｎ３．　

＿

维普资讯

第４期　陆燕，王超等：一种基于流水线的ＭＱ编码器ＦＰＧＡ设计　１３１５　

ＧＡ上以较优的资源和较高的运行速度实现了该　

算法．本文的结构如下：第二部分主要论述基于　

ＭＱ编码的原理；第三部分详细介绍了ＭＱ编码　

器的流水线架构及其采用的改进技术；第四部分　

给出实验结果和结论．　

１　ＭＱ编码的原理　

二进制算术编码的基本操作是递归划分当前子　

区间．当编码器接收到一个新的待压缩码，当前子区　

间会被划分成更小的两个子区间．子区间的左边界　

值被更新为新子区间的低边界；子区间的间隔值也　

更新为新子区间的间隔．　

在ＭＱ编码器中，用寄存器Ａ来记录当前子　

区间的间隔值，用寄存器Ｃ来记录当前子区间的　

左边界值．当编码器接收到一个新的待压缩码，　

编码器从概率估值表查找相应的概率值Ｑｅ．根　

据接受的待压缩码的类型，寄存器Ａ的值和寄存　

器Ｃ的值被更新，更新情况如下：当接受大概率　

符号时，进行大概率编码ＭＰＳ：Ａ—Ａ—Ｑｅ，Ｃ—　

Ｃ＋Ｑｅ；当接受小概率符号时，进行小概率编码　

ＬＰＳ：Ａ—Ｑｅ，Ｃ—Ｃ．　

在实际操作时，Ａ用１６位寄存器表示，Ｃ用２８　

位寄存器表示（一个进位位，一个部分编码字节，三　

个间隔位和１６位的有效区域）．由于寄存器位数有　

限，Ａ需满足ｏ．７５＜Ａ＜１．５，当Ａ＜０ｘ８０００Ｈ（即　

０．７５）时，需对Ａ和Ｃ分别左移，直到Ａ≥　

０ｘ８０００Ｈ，称为重归一化．同时，由于ＭＱ算法在进　

行区间计算时省略了乘法的近似，使得可能发生　

ＬＰＳ子区间大于ＭＰＳ子区间的情况．为了避免这　

种情况，采用区间条件交换，即当Ｑｅ＞Ａ—Ｑｅ（Ａ＜　

２Ｑｅ）时，将ＭＰＳ与ＬＰＳ互换．　

为了实现自适应，算术编码要使用两种表，ＣＸ　

状态表和概率估值表．ＣＸ状态表：ＭＱ编码器使用　

基于上下文（ＣＸ）的概率估计．在ＪＥＰＧ２０００中指定　

的上下文为１９个．每一个上下文都有自己的状态，　

每个状态包含概率估值表的索引（用６位表示）和大　

概率符号值ｍｐｓ（１位）；概率估值表：是一个可以对　

原始数据快速适应的复杂概率自动估计模型．该模　

型是一个具有４７个状态的有限状态机．每个状态包　

含小概率符号ＬＰＳ的概率值Ｑｅ（用１５位表示）、下　

一

个状态的索引ＮＭＰＳ和ＮＩ　ＰＳ（分别用６位表　

示）、是否需要交换ＭＰＳ和ＬＰＳ所代表符号的标志　

ＳＷＩＴＣＨ（１位），共２８位．具体的概率估值表见文　

献［３］．　

下面是ＭＱ编码的总流程．　

图１　ＭＱ编码流程Ｌ　ｊ　

２　ＭＱ编码器的流水线设计　

本文设计的ＭＱ编码器，采用４级流水线实　

现．该编码器以文献［２］中ＭＱ编码器的架构为基　

础，并利用了一些加速技术对其进行改进．改进后的　

ＭＱ编码器４级流水线架构如图２所示．　

图２　ＭＱ编码器４级流水线架构图　

下面分析编码的４级流水线：　

阶段１：存放了两张表，ＣＸ状态表（用ＲＡＭ实　

现）和扩展的概率估值表（用Ｒ０Ｍ实现）．其中，扩　

展的概率估值表对标准中的概率估值表进行了扩　

展，把概率值Ｑｅ的前导零位数（ＬＺ）也存入当前状　

态．这只需要把原来的概率估值表扩展４位．　

输入ＣＸ、Ｄ，由输入的ＣＸ来查询ＣＸ状态表，可　

得到概率估值表的索引和ｎａｐｓ值．根据ｎａｐｓ的值判　

断对当前输入进行大概率（ＭＰＳ）编码还是小概率　

（ＬＰＳ）编码；根据索引值，从概率估值表中得到当前　

输入的概率值Ｑｅ，前导零位数ＬＺ以及下一个状态信　

息．当条件满足时，用下一个状态更新ＣＸ状态表．ＣＸ　

状态表的更新需要阶段２的反馈信息．　

维普资讯

１３１６　电　子　器件　第３０卷　

在文献Ｅ５３中首次提出了使用流水线来实现　

ＪＢＩＧ的ＭＱ编码，并解决了流水线实现的关键点，　

即输入连续上下文（ＣＸ）时ＣＸ状态表的更新和算　

术编码器所用的ＬＰＳ概率值Ｑｅ的读取．但是这种　

结构需要扩展概率估值表，把下一次ＬＰＳ和ＭＰＳ　

的概率值也存入当前状态，这就使ＲＯＭ从原来的　

２８位增加到５８位．本文采用了超前技术更新ＣＸ状　

态表，不需要对概率估值表进行概率值扩展．如图３　

所示，假如两个连续的的ＣＸ—Ｄ对具有相同的　

ＣＸ，并且第一对数据引起了重归一化，更新的下一　

个状态值直接通过多路选择器送到概率估值表．由　

于有１９个上下文，每个上下文的状态需要７个数据　

位的ＲＡＭ；有４７个概率估值表索引，每个索引的　

状态需要３２个数据位的ＲＯＭ，因此该ＭＱ编码器　

实现概率估值所占用的资源为１９×７＋４７×３２—１　

６３７个存储位．　

图３采用超前技术的ＣＸ表更新　

阶段２：主要功能是有进行区间条件交换判断，　

更新寄存器Ａ中的信息并对Ａ进行重归一化．新的　

间隔为Ａ或者Ａ＿Ｑｅ．　

寄存器Ａ更新后，当其值小于０ｘ８０００Ｈ时，对　

其左移．从ＪＰＥＧ２０００标准中的概率估值表中可以　

发现，最小的ＬＰＳ概率为０ｘ０００１，因此编码区间重　

归一化流程最坏情况是循环１５次，即需要移位１５　

次．这造成编码的效率极其低下．为了提高编码效　

率，可以先确定左移的移位值，然后送入移位寄存　

器，在一个周期内完成所有移位ｌ６］．　

移位值的确定需要计算前导零位数．本文采用　

了前导零超前检测方法ｌ７］，大大减少了移位值计算　

中的延时．在进行ＬＰＳ编码时，Ａ—Ｑｅ，概率值Ｑｅ　

的前导零位数可以从阶段１中的概率估值表中得　

到，这个数即为需要左移的移位值，可以直接送入移　

位寄存器；在进行ＭＰＳ编码时，注意到Ａ寄存器的　

最小值为０ｘ８０００，概率值Ｑｅ的最大值为０ｘ５６０１，　

因此Ａ—Ｑｅ的最小值为０ｘ２９ＦＦ，只有两个前导零，　

只需要检测最高两位．　

在ＭＱ编码的流水线设计完成后，发现关键路　

径存在于ｓｔａｇｅ２．因此对Ａ寄存器的算法进行了优　

化．Ａ＜２Ｑｅ（比较器）可以用Ａ＿２Ｑｅ（减法器）是否产　

生了借位来实现，对寄存器Ａ的算法优化后，结构　

如图４所示．　

图４优化的寄存器Ａ算法结构　

阶段３：主要功能是更新Ｃ寄存器中的信息和　

对其进行重归一化．标准中的寄存器ｃ为２８位，为　

了缩短关键路径，只把寄存器Ｃ中的１６位有效区　

域放入阶段３中，相应的用来更新Ｃ寄存器的２８位　

加法器也减少为１６位．寄存器Ｃ的具体算法和阶　

段２中的寄存器Ａ相似．　

阶段４：主要完成字节输出功能．采用文献［８］　

的字节输出缓冲技术，使复杂的字节输出流程可以　

在一个周期内完成．字节输出过程的结构如图５所　

示．　

移位值　Ｃ１　７ｆ带进位位）　

图５字节输出过程的结构　

区间重归一化的过程中伴随着字节输出．有三　

种可能情况：不需要进行字节输出，需要进行１个字　

节或２个字节的字节输出．因此需要对字节输出机　

制作改进．在阶段３中已经限制Ｃ寄存器为１６位，　

通过观察可以发现只有当寄存器Ｃ的有效部分移　

出１９位时才会发生字节输出．本文的设计中把标准　

中的４位ＣＴ减法计数器调整为５位加法计数器，　

并使用一个１８位的辅助缓存器．当同时发射０，１或　

２个字节到压缩位流中时，从寄存器Ｃ左移出的所　

有位都可以在一个时钟内存到辅助缓存器中．当加　

法记数器中的值大于２７时，有两个字节需要输出；　

当值小于２７并且大于１９时有１个字节输出；小于　

１９时没有字节输出．　

维普资讯

第４期　陆燕，王超等：一种基于流水线的ＭＱ编码器ＦＰＧＡ设计　１３１７　

３实现结果及性能分析　

ｔ，２２７２个存储位（ＦＩ￣Ａ实现需要的存储位个数与　

本文第三部分预测的存储位个数不同，因为综合器把　

文中所描述的ＭＱ编码器用ＶＨＤＬ语言进行　

ＲＡＭ和ＲＯＭ的地址位取成２的整数倍）．该ＭＱ编码　

ＲＴＬ级描述，并且在Ｍｏｄｅｌｓｉｍ环境下进行仿真仿真　

器工作效率可以达到１ＣｘＤ／ｃｙｃｌｅ，最高工作时钟频率　

结果与ＪＥｌｌ２０００推荐的标准算法软件Ｊａｓｐｅｒ的计算　

可达９９．６６ＭＨａ因此，该编码器的工作速度可以达到　

结果一致．将实现的代码进行ＦＰＧＡ验证，选用的器件　

９９．６６ＭＣｘＤ／ｓ．将本文所描述的编码器与文献［８］中设　

为Ａｌｔｅｒａ公司的ＳｔｒａｔｉｘＩＩ　ＥＰ２Ｓ６０１０２０ＣＡ，并用Ｑｕａｒ—　

计的一种３级流水线结构的算术编码器进行比较，结　

ｔｕｓＩＩ进行综合．结果表明该ＭＱ编码器使用了７５７个　

果见表１．　

表１性能比较　

从比较结果可以看出，本文描述的算术编码的　

Ｌｉａｎ　Ｃ　Ｊ，Ｃｈｅｎ　Ｋ　Ｆ，Ｃｈｅｎ　Ｈ　Ｈ，ａｎｄ　Ｃｈｅｎ　Ｌ　Ｇ．Ａｎａｌｙｓｉｓ　ａｎｄ　

优点在于改进了算法，提高了编码器工作的时钟频　

Ａｒｃｈｉｔｅｃｔｕｒｅ　Ｄｅｓｉｇｎ　ｏｆ　Ｂｌｏｃｋ－Ｃｏｄｉｎｇ　Ｅｎｇｉｎｅ　ｆｏｒ　ＥＢＣＯＴ　ｉｎ　

率，从而提高了编码器的吞吐率．　

ＪＰＥＧ　２ｏｏｏ　，ｌＪ］．ＩＥＥＥ　Ｔｒａｎｓ．Ｃｉｒｃｕｉｔｓ　Ｓｙｓｔ．Ｖｉｄｅｏ　Ｔｅｃｈｎｏｌ，　

Ｍａ　ｒ．２００３，１３（３）：２１９—２３０．　

４结论　

ＩＳ（）／ＩＥＣ．ＦＣＤ　１５４４４２１，Ｆｉｎａ１　ｏＣｍｍｉｔｔｅｅ　Ｄｒａｆｔ，ＪＰＥＧ２０００　

Ｉｍａｇｅ　ｏＣｄｉｎｇ　ＳｙｓｔｅｍＳｌ，Ｚ］．　

在ＪＰＥＧ２０００编码系统中，针对ＭＱ编码器的　

Ａｃｈａｒｙａ　Ｔｉｎｋｕ，Ｔｓａｉ　Ｐｉｎｇ－Ｓｉｎｇ，ＪＰＥＧ２０００　Ｓｔａｎｄａｒｄ　ｆｏｒ　Ｉｍ—　

硬件实现，提出了一种４级流水线设计方案．该方案　

ａｇｅ　Ｃｏｍｐｒｅｓｓｉｏｎ　Ｃｏｎｃｅｐｔｓ，Ａｌｇｏｒｉｔｈｍｓ　ａｎｄ　ＶＩ　ＳＩ　Ａｒｃｈｉｔｅｃ—　

采用了流水线设计思想以提高系统时钟的工作频　

ｔｕｒｅｓｌ，Ｍ］．ＷＩＬＥＹ—ＩＮＴＥＲＳＣＩＥＮＣＥ．２００５．　

Ｔａｒｕｉ　Ｍ，Ｏｓｈｉｔａ　Ｍ，Ｏｎｏｙｅ　Ｔ，ａｎｄ　Ｓｈｉｒａｋａｗａ　Ｉ，Ｈｉｇｈ－Ｓｐｅｅｄ　Ｉｍ—　

率，为了进一步提高运算速度，给出了改进方案，通　

ｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ＪＢＩＧ　Ａｒｉｔｈｍｅｔｉｃ　ｃｏｄｅｒ［－Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　

过零位超前检测和字节输出缓冲策略以及对寄存器　

ＩＥＥＥ　Ｒｅｇｉｏｎ　１０　Ｃｏｎｆｅｒｅｎｃｅ，Ｓｅｐｔｅｍｂｅｒ　１９９９，２：１２９１—１２９４．　

Ａ的算法优化，缩短关键路径．并且在ＦＰＧＡ上得　

Ｈｓｉａｏ　Ｙｕｎ＿Ｔａｉ，Ｌｉｎ　Ｈｕｎｇ－ｅＤｒ，Ｌｅｅ　Ｋｕｎ－Ｂｉｎ　ａｎｄ　Ｊｅｎ　Ｃｈｅｉｎ－　

以实现．结果验证了该设计在功能上的正确性．　

Ｗｅｉ．Ｈｉｇｈ—Ｓｐｅｅｄ　Ｍｅｍｏｒｙ－Ｓａｖｉｎｇ　Ａｒｃｈｉｔｅｃｔｕｒｅ　ｏｆｒ　ｔｈｅ　Ｅｍｂｅｄ—　

流水线结构的ＭＱ编码器设计，对ＪＰＥＧ２０００　

ｄｅｄ　Ｂｌｏｃｋ　Ｃｏｄｉｎｇ　ｉｎ　ＪＰＥＧ２０００　，ＩＣ］／／ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍ—　

ｐｏｓｉｕｍ　ｏｎ　Ｃｉｒｃｕｉｔｓ　ａｎｄ　Ｓｙｓｔｅｍｓ，Ｍａｙ　２００２，５：１３３—１３６．　

ＡＳＩＣ的设计意义重大，该方案实现了１个时钟编码　

Ｄｙｅｒ　Ｍ，Ｔａｕｂｍａｎ　Ｄ，ａｎｄ　Ｎｏｏｓｈａｂａｄｉ　Ｓ，Ｉｍｐｒｏｖｅｄ　Ｔｈｒｏｕｇｈ—　

１个输入，提高了整个系统数据流的实时Ｉ生．　

ｐｕｔ　Ａｒｉｔｈｍｅｔｉｃ　ｏＣｄｅｒ　ｏｆｒ　ＪＰＥＧ２０００Ｉ，Ｊ］．Ｐｒｏｃ．Ｉｎｔｅｒｎａｔｉｏｎ　ｏＣｎ—　

ｆｅｒｅｎｃｅ　ｏｎ　Ｉｍａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ（ＩＣＩＰ’Ｏ４），２００４．　

参考文献：　

Ｍｉｃｈａｅ１　Ｄｙｅｒ，Ｄａｖｉｄ　Ｔａｕｂｍａｎ，Ｓａｌｅｄ　Ｎｏｏｓｈａｂａｄｉ　ａｎｄ　Ａｍｉｔ　

Ｅｌｉ　Ｔａｕｂｍａｎ　Ｄａｖｉｄ　Ｓ，Ｍａｒｃｅｌｌｉｍ　Ｍｉｃｈａｅｌ　Ｗ编著，魏江力、柏正尧　

Ｋｕｍａｒ　Ｇｕｐｔａ．Ｃｏｎｃｕｒｒｅｎｃｙ　Ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　Ａｒｉｔｈｍｅｔｉｃ　Ｃｏｄｉｎｇ　

等译，赵保军审校，ＪＰＥＧ２０００图像压缩基础、标准和实践Ｉ－Ｍ］．　

ｉｎ　ＪＰＥＧ２０００　，ｌＪ］．Ｃｉｒｃｕｉｔｓ　ａｎｄ　Ｓｙｓｔｅｍｓ　Ｉ：Ｒｅｇｕｌａｒ　Ｐａｐｅｒｓ，　

电子工、ｌ　出版社，２００５．　

ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ，Ｊｕｎｅ　２００６，５３（６）：１２０３—１２１３．　

USB迷 | 专注于互联网分享

一种基于流水线的MQ编码器FPGA设计

与本文相关的文章

评论列表 (0)