2024年4月15日发(作者:徐笑旋)
第
40
卷第
3
期
圆园21
年
6
月
天津工业大学学报
允韵哉砸晕粤蕴韵云栽陨粤晕GONG哉晕陨灾耘砸杂陨栽再
Vol.40No.3
June2021
DOI
:
10.3969/.1671-024x.2021.03.012
基于
55nm
工艺的
MCU
低功耗物理设计
2222
陈力颖
1
,
,罗奎
1
,
,王浩
1
,
,刘宏伟
1
,
,吕英杰
3
(
1.
天津工业大学电子与信息工程学院,天津
300387
;
2.
天津工业大学天津市光电检测技术与系统重点实验室,
天津
300387
;天津
300450
)
3.
天津鹏翔华夏科技有限公司,
摘要:为了降低芯片的功耗,提高芯片的性能和可靠性,在传统数字芯片物理设计流程基础上,提出一种新的低
功耗物理设计方法,包括布局(
Placement
)阶段采用
SAIF
文件进行低功耗的协同优化,并在布局结果基础
上,通过手动配置时钟单元摆放来减小缓冲单元插入的方式进行低功耗的时钟树设计。结果表明:通过新
的低功耗设计可以大幅改善芯片功耗,在布局阶段,芯片功耗降为原来的
90.6%
,建立时间的最差违例值
由
-6.021
降为
-0.880
;时钟树综合(
clocktreesynthesis
,阶段,功耗优化效果显著,时钟网络功耗降为
CTS
)
原来的
73.1%
,总功耗降为原来的
86.2%
;时序得到改善,建立时间的违例总条数降为原来的
12.5%
,总违
例值降为原来的
3.0%
,保持时间的违例总条数降为原来的
39.8%
,总违例值降为原来的
7.5%
。
关键词:数字集成电路;布局;时钟树综合;低功耗;协同优化
TN492
中图分类号:
A
文献标志码:
园3原园园77原06
文章编号:
员远苑员原园圆源载
(
圆园21
)
LowpowerphysicaldesignofMCUbasedon55nmprocess
TiangongUniversity
,
Tianjin300387
,
China
;
nKeyLabo原
(
ofElectronicsandInformationEngineering
,
ratoryofOptoelectronicDetectionTechnologyandSystems
,
TiangongUniversity
,
Tianjin300387
,
China
;
n
PengxiangHuaxiaTechnologyCo.
,
Ltd.
,
Tianjin300450
,
China
)
2222
.. All Rights Reserved.
CHENLi-ying
1
,
LUOKui
1
,
WANGHao
1
,
,,,
LIUHong-wei
1
,
,
LYUYing-jie
3
Abstract
:
Inordertoreducethepowerconsumptionofthechipandimprovetheperformanceandreliabilityofthechip袁a
newlowpowerphysicaldesignmethodisproposedbasedonthetraditionaldigitalchipphysicaldesignprocess袁
whichincludestheuseofSAIFfileintheplacementstageforlow-powercollaborativeoptimization袁andonthe
basisoftheplacementresults袁thedesignoflow-powerclocktreeiscarriedoutbymanuallyconfiguringthe
ultsshowthatthechippowerconsumptioncanbe
reducedto90.6%袁andtheworstviolationvalueofsetupisreducedfrom-6.021to-0.880曰intheclocktree
synthesisstage袁thepowerconsumptionoptimizationeffectissignificant袁thepowerconsumptionofclocknet鄄
ofholdviolationisreducedto39.8%andthetotalviolationvalueisreducedto7.5%.
greatlyimprovedthroughthenewlowpowerdesign院inthestageofplacement袁thechippowerconsumptionis
workisreducedto73.1%袁andthetotalpowerconsumptionisreduceto86.2%.Thetimeisimproved袁thetotal
numberofsetupviolationsisreducedto12.5%andthetotalviolationvalueisreducedto3.0%袁thetotalnumber
(
CTS
);
lowerpower
;
collaborativeoptimizationKeywords
:
digitalintegratedcircuit
;
placement
;
clocktreesynthesis
随着集成电路制造工艺水平的提高,芯片的集成
度越来越高,在芯片性能大幅提升、面积持续缩小的
同时,低功耗设计成为无法回避的难题
[1]
。过高的功耗
会降低芯片的性能和可靠性,额外增加芯片的封装成
本,所以低功耗设计一直是芯片设计的主要方向
[2]
。在
2020-06-08
收稿日期:
数字芯片的低功耗物理设计中,时钟信号是整个芯片
中翻转频率最高、驱动负载最大和传输距离最远的信
40%
。所以,时钟树设计是低功耗物理设计的主要方向
号
[3]
,时钟网络功耗通常能占到芯片总功耗的30%~
之一。好的时钟树设计是建立在合理的布局结果之上
基金项目:国家留学基金资助项目(
2
);天津市研究生科研创新项目(
2019YJSS019
)
通信作者:陈力颖(
1976
—),男,博士,副教授,主要研究方向为射频集成电路和数模混合集成电路设计。
:
*****************
-78-
天津工业大学学报第
40
卷
的,所以本文在布局和时钟树综合两个方面进行低功
耗设计,在布局阶段采用
SAIF
文件进行低功耗的协
同优化,并在布局结果基础上,通过手动干预时钟单
元摆放来减小缓冲单元插入的方式进行低功耗时钟
树设计
[4]
。
本文以一个应用于低功耗物联网(
IoT
)领域的
微控制单元
55nm
(
MCU
)设计为例。设计采用台积电(
TSMC
)
约为
300
工艺,
万门,包含
芯片面积为
89
2.13
个宏单元,最高频率为
mm伊2.22mm
,芯片规模
MHz
,借助新一代
Innovus
布局布线工具,在传统低功
120
耗物理设计流程基础上,研究新的低功耗设计方法。
1MCU
低功耗物理设计
随着数字集成电路工艺制程的演进,对芯片功耗
的要求越来越高
[5]
。
MCU
低功耗设计可以分为
3
个部
分:第
1
部分是系统与架构级的低功耗设计,比如多
电压域设计技术、电源关断技术、动态电压频率调节
(
DVFS
)技术等
[6]
;第
2
部分是
RTL
编码和逻辑综合的
低功耗设计,
3
部分是数字电路在物理设计阶段的低功耗设计,
比如门控时钟和操作数隔离技术等
[7]
;第
要是基于门级电路的低功耗设计,比如多阈值电压和
主
多沟道长度标准单元库的选用、多位寄存器优化、翻
转率负载协同优化、低功耗时钟树设计等
[8]
。本文主要
是在物理设计过程中进行低功耗的设计。完整的物理
设计流程从布图规划(
floorplan
)、布局(
placement
)、时
钟树综合(
clocktreesynthesis
)、布线(
route
)到静态时
序分析
veri-fication
(
static
)。时钟树功耗、
timinganalysis
处理器
)与物理验证
(
CPU
)和存储器功
(
physical
耗占了芯片总功耗的绝大部分
[9]
,而
CPU
功耗及存储
器功耗取决于芯片的整体布局,所以在布局和时钟树
综合阶段进行低功耗设计能最大程度地降低功耗。
数字电路的总功耗可表示为:
P
total
=
1
2
C
L
V
DD
2
伊T
r
+t
sc
V
DD
I
peak
伊T
r
+V
DD
I
leakage
(
1
)
式中:第
1
个乘积项为开关功耗,由电路翻转对外部
负载
C
L
充放电产生的功耗;第
2
个乘积项为短路功
耗,为电路
NMOS
和
PMOS
同时导通形成的短路电流
I
peak
产生的功耗,这两项为电路工作时产生的功耗,称
为动态功耗,动态功耗往往能占到芯片总功耗的
80%
左右;第
3
项为泄漏功耗,为晶体管的沟道、栅极、衬
底等非理想漏电流
I
T
leakage
产生的功耗,也称静态功耗;
r
为信号单位时间的翻转次数,称为翻转率(
toggle
rate
的静态概率,
);
t
sc
为短路电流的产生时间,其值取决于输入信号
静态概率也称信号的占空比。所以数字
电路功耗的计算跟电路的开关行为(
switchingactivity
)
有关,即信号的翻转率和静态概率,在低功耗的物理
设计中明确电路的开关行为是非常有必要的。
2
低功耗物理设计流程
低功耗设计需要在功耗和时序之间找到一个平
衡点,即在时序能够收敛的情况下,使功耗尽可能降
低
[10]
。在标准单元摆放和时钟树设计完成后,标准单元
的位置基本不会有大的改动,后续优化过程中,为了
不影响时序,一般不会大规模的修改时钟线,所以芯
片功耗一般不会有大的增加。本文在传统物理设计流
程基础上,重点在布局和时钟树综合阶段进行低功耗
设计。在布局阶段采用翻转率负载协同优化的设计方
法进行低功耗设计,并在布局之前将部分时钟单元进
行优先手动摆放;在布局结果基础上,通过手动干预
时钟单元摆放来降低缓冲单元插入的方法进行低功
耗的时钟树设计。图
1
为本文低功耗设计的流程,布
局前将
SAIF
文件读入,设置低功耗驱动命令,并进行
部分时钟单元的手动摆放,布局后结合传统时钟树设
计方法进行低功耗的时钟树设计。
Floorplan
数据
标准单元布局
读入(
GigaPlace
)
功耗驱动优化
布局后时序优化
设定
(
GigaOpt
)
SAIF
文件读入
时钟树规范文件
读入
包含时钟单元位置
信息
DEF
读入
时钟树综合
图
1
功耗优化流程
Fig.1Powerconsumptionoptimizationprocess
3
布局阶段的低功耗设计
3.1SAIF
协同优化
布局阶段主要进行标准单元的摆放,本文在布局
阶段采用
SAIF
翻转率协同优化的方式进行低功耗的
设计。
SAIF
(
switchingactivityinterchangeformat
)文件
是一种记录电路开关行为的内部交换格式文件,记录
了在某种工作场景下、一段时间内互连线和单元引脚
上信号静态概率和翻转率的情况,由综合后经仿真得
.. All Rights Reserved.
第
3
期陈力颖,等:基于
55nm
工艺的
MCU
低功耗物理设计
-79-
到。开关行为(
switchingactivity
)指的是设计中翻转率
和静态概率的情况。本文在布局阶段利用
Innovus
的功
耗驱动优化命令与
SAIF
文件进行低功耗的协同优化,
将
SAIF
read_activity_file
文件在标准单元布局之前通过如下命令读入:
tbench/u_mcu/u_sys/verify_env/dut
-formatSAIF$inputSAIF-scope
并在布局阶段进行如下的功耗驱动优化设置:
setOptMode
setPlaceMode
-powerEfforthigh
setPlaceMode
-activity_power_driven
SAIF
文件主要能起到两个效果:
-activity_power_driven_effort
true
一是提高功耗计
high
算的准确性,得到更为准确的功耗值。不管是动态功
耗还是静态功耗的计算都与设计中信号翻转率和静
态概率情况密切相关。二是结合功耗驱动命令进行功
耗的协同优化,布局布线工具会结合
SAIF
文件中开
关行为的情况,将翻转率较高的时序单元进行聚拢配
置,减小时序单元之间的配线长度,达到减小翻转功
耗的目的。在布局前读入
SAIF
文件要保证
SAIF
中标
注的开关行为覆盖率(
annotationcoverage
)达到
90%
以
上才能达到良好效果,通过查看布局阶段的
log
文件,
本设计中开关行为的覆盖率达到了
98.5%
,满足要求。
图
2
为
SAIF
协同优化配置前后分布,图中黄色
方框内为
CPU
模块的分布。由图
2
可以明显看出,采
用
SAIF
协同优化后,
CPU
内核模块翻转率较高的
D
触发器相比原来聚拢效果明显,进而缩短了他们之间
的布线长度,可以有效降低
CPU
功耗,同时也有利于
时序的收敛。结果表明,采用
SAIF
文件进行协同优化
的方案,
3.2SAIF
功耗比原来降低
协同优化
+
动态功耗优化
5.2%
。
降低功耗的作用,
SAIF
文件与低功耗命令的协同优化虽然能起到
但功耗优先的优化模式促使布局布
线工具大量的使用了小尺寸单元进行时序优化,因为
小尺寸优化单元的驱动能力较低,布局布线工具会插
入大量的低驱动能力单元进行优化,使总体占有率增
高,并最终导致时序的恶化,特别是建立时间总违例
值变差。为了减小低驱动单元的大量使用,在布局阶
段进行动态功耗优化的设定,让布局布线工具在进行
布局优化时只进行动态功耗的优化,进行如下命令的
设置:
图
setOptMode
3
为两种优化方法和传统布局在插入的优化
-leakageToDynamicRatio0
单元数量上的对比,优化单元包括缓冲器(
buffer
)和
反相器
X90
之间。
(
inverter
),优化单元的驱动能力处于
X02
到
(
a
)配置前
(b)配置后
图
2
配置前后
CPU
模块分布
Fig.2DistributionofCPUmodulebeforeandafter
configuration
120
100
000
80
000
传统布局
60
000
SAIF
SAIF
协同优化
动态功耗优化
协同优化+
40
000
20
000
000
0
X02X06
优化单元驱动能力大小
X16X30X60X90
图
3
优化后驱动单元使用数量对比
Fig.3Comparisonofdrivingcellnumberafter
optimization
由图
3
可以看出,采用
SAIF
的协同优化后,在布
局阶段插入的低驱动能力单元数量与传统布局相比
大幅增加,这是导致时序恶化的主要原因。而在
SAIF
.. All Rights Reserved.
-80-
天津工业大学学报第
40
卷
协同优化的基础上进行动态功耗优化后,低驱动单元
的使用数量相比采用
SAIF
协同优化明显降低。低驱
动单元的使用数量降低,能使布局阶段整体的占有率
降低,
3.3
布局后结果对比
一定程度上能够遏制时序的恶化。
表
1
为布局阶段
2
种组合优化方式与传统布局
的结果对比。
表
1
布局后结果对比
Tab.1Comparisonofresultsafterplacement
分类传统布局
SAIF
协同优化
SAIF
动态功耗优化
协同优化
+
建立时间
WNS/ns-6.021-2.120-0.880
建立时间
TNS/ns-373-518.240-325.910
违例条数
NUM0
短路功耗
/mW17.56016.66015.910
开关功耗
/mW52.66049.95047.710
泄漏功耗
/mW0.0120.0120.011
总功耗
/mW70.24066.62063.640
功耗削减
/%5.29.4
由表
1
可以看出,采用基于
SAIF
的协同优化和
动态功耗优化
9.4
(
-0.880
%
,建立时序
Dynamic
(
setup
)
)
最差违例值从
组合的总功耗比原来削减了
-6.021
优化为
时,时序也得到了优化,
。由此说明,在布局阶段功耗得到了优化的同
这种优化方案在布局阶段起
到的效果最好。
4
时钟树综合阶段的低功耗设计
40
时钟网络功耗通常能占到芯片总功耗的
30%~
内容
%
,所以时钟树设计往往是低功耗物理设计的重要
[11]
。时钟树综合(
CTS
)就是建立一个合理的时钟网
络,使时钟信号传递到每一个时序器件的延迟尽可
能一致,做到时钟树的尽可能平齐。为了实现时钟结
构的平齐,工具会插入大量缓冲器(
buffer
)和反相器
(
inverter
)进行平衡,大量
buffer
和
inverter
的插入会导
致功耗的恶化
[12]
,所以低功耗的时钟树设计往往以降
低缓冲单元的插入为目标。缓冲器在
CTS
阶段主要起
到两种作用:一种是为了平衡延迟;另一种是为了驱
动负载
[13]
。所以,本文在布局阶段的低功耗设计基础
上,在减少平衡缓冲器和驱动缓冲器两个方向上进行
低功耗的时钟树设计。
4.1
传统时钟树设计方法
传统时钟树设计方法有:
(
1
)分析时钟结构,设计合理的时钟树方案
[14]
。
(
2
)根据时钟树方案,编写时钟树设计规范文件
(
clockspec
),包括定义时钟根节点(
rootpin
)和一些需
要特殊处理的时钟节点,设置合理的时钟偏斜
skew
等
[15]
)
。
、
Innovus
转换时间
的
(
(
clock
CCOPT
transition
引擎会根据该文件进行时钟
)、最大扇出值(
maxfanout
)
树构建。
(
3
)指定缓冲单元、反相器和门控时钟单元的使
用类型和大小。缓冲单元和反相器一般避免使用过大
或过小尺寸的单元,多使用时钟缓冲器(
CLKBUF
)和
反相器(
CLKINV
),这种类型单元的上升渡越时间和
下降渡越时间基本一致,带来的延迟误差更小。门控
时钟则尽可能使用小尺寸单元。
(
4
)设定时钟树的布线层,一般选用电阻电容较
小的金属层,
cut
)布线
为了提高可靠性,多使用双孔(
double
[16]
。
les
扰(
)
(
crosstalk
,目的是为了减小时钟树电阻和耦合电容,
5
)设定时钟布线的非默认规则(
non-defaultru-
低功耗设计方法
)的影响
[17]
避免串
4.2
。
本文在
Innovus
的
CCOPT
引擎下,结合传统时钟
树设计方法,采用一种新的低功耗时钟树设计方案,
在布局之前将一些关键路径上的时钟单元进行手动
摆放,在降低功耗的同时优化时序。本文采用了如下
3
种方法:
(
1
)时钟相关模块设置
region
的物理约束,将其
与时钟振荡器进行邻近配置,目的是为了尽量减小平
衡缓冲器的插入。
region
的物理约束能将模块内的标
准单元约束在指定的区域内进行摆放,设置合理的模
块利用率,让非该模块内的标准单元也能在该区域进
行摆放,不至于影响整体的布局效果
[18]
。表
2
为进行配
置的模块。
表
2
物理约束的设置对象
Tab.2Settingsobjectsforphysicalconstraint
模块名配置内容
cspf/sysss/syspf/clkmc/nc_osc
将该噪声滤波器模块配置在主振荡
器输出附近
cspf/sysss/syspf/clkmc/nc_osc32k
将该噪声滤波器模块配置在子振荡
器输出附近
cspf/sysss/syspf/cpg
pericore/mp200/rtc
将该模块配置在子振荡器输出附近
将该模块配置在振荡器输出附近
(
2
)在时钟模块与邻近配置的前提下,依次进行
部分时钟单元的手动插入,确保距离时钟振荡器足够
近,尽可能地减小平衡缓冲器的插入。根据时钟结构,
在时钟根节点进行分级。从时钟源(主振荡器
HOCO
等)
.. All Rights Reserved.
第
3
期陈力颖,等:基于
55nm
工艺的
MCU
低功耗物理设计
-81-
到
CTS
CPG
模块内的时钟选择器的路径定义为第
0
级
级
leaf
CTS
电路;从时钟选择器到时钟分频电路定义为第
电路;从时钟分频电路到时钟叶节点(
1
前将第
)定义为第
1
级起点的时钟选择器和第
2
级
CTS
电路。采用的方法是在布局之
clock
2
级起点的时钟
分频电路单元,用命令从振荡器旁开始依次进行提前
摆放,再以
DEF
格式文件将其输出,在布局前进行读
入,提高设计的可重复性。时钟单元手动摆放的命令
如下:
562.30
placeInstancecspf/
(
3
)对第
458.40-fixed
sysp/vc_and_stop_selclkm4stp
1
段
CTS
电路的部分扇出(
fanout
)进行
手动分割,减少多余驱动缓冲器的插入,避免时钟结
构的冗余。与门
CTS
selclk
后原本有
21
个扇出,在传统
冲器的插入。
设计下,工具进行了多余分割,
CTS
阶段设定的最大扇出
导致了
(
max
6
个多余缓
fanout
)
为
24
,发现一个
buffer
完全可以驱动
21
个扇出,所以
在
者重新进行分割。
touch
CTS
属性,
之前进行手动分割,
确保
CTS
阶段工具不会插入多余
并对相应时钟线设置
buffer
don忆t
或
4.3
时钟树综合结果对比
时钟树的低功耗设计是将部分时钟单元进行手
动摆放以优化时钟结构,避免性能冗余
[19]
,尽可能少地
插入缓冲单元和反相器,来达到降低时钟功耗和优化
时序的目的
[20]
。表
3
为时钟结构上插入的缓冲器和反
相器数量对比,由表
3
可知,与传统
CTS
相比,手动配
置
CTS
时时钟树上插入的缓冲器单元和反相器数量
分别降低了
17.2%
和
22.2%
。
表
3
时钟缓冲器优化结果对比
Tab.3Comparisonofclockbufferoptimizationresults
分类时钟树缓冲器数量时钟树反相器数量
传统
CTS62754.0
手配
CTS51942.0
改善率
/%17.222.2
表
4
为本文采用的时钟树低功耗设计与传统
CTS
的功耗对比。由表
4
可知,通过时钟单元的手动配置,
时钟功耗下降为原来的
73.1%
,芯片总功耗下降为原
来的
86.2%
,达到了明显降低功耗的效果。
表
5
、表
6
为本文在时钟树综合后进行一遍时序
优化后的时序结果对比。
14
到,
,总的违例值从
由表
5
可以看到,
setup
的违例条数从
112
降为
hold
的违例条数从
-38.793
445
降为
降为
-1.154
177
,总的违例值从
。由表
6
可以看
表
4
功耗结果对比
Tab.4Comparisonofpowerconsumption
分类功耗分类
短路功耗
传统
CTS
时钟功耗
mW
/
开关功耗
/
泄漏功耗
/
分类总功
耗
/mW
总功耗
031.360
mW
0.006
mW
手配
CTS
时钟功耗
21.860
8.070
总功耗
0
65.5000.015
39.450
18.830
5.89022.910
56.430
0.004
87.450
0.013
28.820
75.340
表
5
建立时间结果对比
Tab.5Comparisonofsetuptiming
分类
建立时间(
setup
)
传统
CTS
WNS/ns
-0.697-38.793
TNS/nsNUM/
112
条
手配
CTS-0.174-1.154014
表
6
保持时间结果对比
Tab.6Comparisonofholdtiming
分类
保持时间(
hold
)
传统
CTS
WNS/ns
-1.275-45.360
TNS/nsNUM/
445
条
手配
CTS-0.2200-3.420177
-45.36
序的优化效果明显,
降为
-3.42
。由此说明,
违例值的改善大大减轻了后续的
本文的时钟树设计对时
逻辑优化,缩短了设计周期,使整体的占有率降低,从
而降低了整体功耗。
5
结论
MCU
本设计借助新一代布局布线工具
Innovus
,在传统
SAIF
物理设计流程基础上进行功耗优化,包括基于
基础上,
文件协同优化的低功耗布局设计,
进行手动配置部分时钟单元的低功耗时钟树
并在布局结果
设计。本文通过在布局和时钟树综合
2
个阶段进行低
功耗设计,能够达到优化功耗和时序的效果,缩短了
设计周期,结果表明:
(
1
)在布局阶段,芯片功耗降为原来的
90.6%
,建
立时间的最差违例值由
-6.021
优化为
-0.880
;
(
2
)时钟树综合阶段,功耗优化的效果明显,时钟
功耗降为原来的73.1%。时序得到改善,建立时间违例
的总条数降为原来的
3.0%
,保持时间的违例总条数降为原来的
12.5%
,总违例值降为原来的
例值降为原来的
7.5%
。
39.8%
,总违
参考文献:
[1]
戈喆,王志鸿,厉媛玥
.
基于
Innovus
的低功耗物理设计
[J].
.. All Rights Reserved.
-82-
天津工业大学学报第
40
卷
电子技术应用,
2016
,
42
(
8
):
21-24.
GE
Innovus
Z
,
WANGZH
,
erphysicaldesignin
(8):21-24
[J].
(in
Application
Chinese).
ofElectronicTechnique,2016,42
[2]
王欣宇
用,
WANG
2019
.
一种低功耗
,
36
(
5
):
MCU
芯片的设计方法
[J].
集成电路应
ofIC
,
2019
XY.
,
A
36
(
design
16-18.
5
):
16-18
oflow
(
power
inChinese
MCU
)
.
chip[J].Applications
[3]
67.
高效时钟树设计
陈力颖,翦彦龙,
[J].
吕英杰
天津工业大学学报,
.
基于
28nm
工艺的
2019
,
CCOpt
38
(
2
):
技术
62-
CHEN
byCCOpt
LY
technology
,
JIANYL
for
,
LYU
28nm
YJ.
process
Design
[J].
ofefficient
Journal
clock
ofTianjin
tree
[4]
Polytechnic
戈喆,付娟,
University
王沛东,
,
等
2019
.
低功耗时钟树设计的结构分析和
,
38
(
2
):
62-67
(
inChinese
)
.
优化
GEZ
[J].
,
FU
中国集成电路,
J
,
WANG
power
PD
2017
,
clock
et
,
al.
26
(
tree
Clock
9
):
30-34.
[J].
structure
ChinaIntegrated
analysis
Cir原
and
[5]
朱伟弟
cuit
optimization
,
2017
“漫谈”
.
,
26
for
(
low
MCU
9
):
30-34
物联网应用场景
(
inChinese
)
[J].
.
统应用,
2019
,
19
(
4
):
86-87.
单片机与嵌入式系
ZHU
nario[J].
WD.
Microcontrollers
"Ramble"MCU
&Embedded
Internetof
Systems
thingsapplication
,
2019
,
19
(
sce原
86-87
(
inChinese
)
.
4
):
[6]
87-90.
理设计方法与实现
谢旦杰,魏敬和,于宗光
[J].
微电子学与计算机,
.
一种基于
CPF
格式的低功耗物
2019
,
36
(
3
):
XIE
method
DJ
and
,
WEI
implementation
JH
,
YUZ
&Computer
based
G.A
,
2019
on
low
,
common
-powerphysicaldesign
36
(
3
):
power
87-90
format[J].
(
inChi原
[7]
nese
Microelectronics
杨紫薇,
)
.
朱致玖,袁甲,等
.
一种针对低功耗
MCU
关断模
26-30.
式的功耗优化方法
[J].
微电子学与计算机,
2017
,
34
(
6
):
YANG
tionofthe
ZW
off
,
ZHU
mode
Z
of
J
,
YUANJ
,
andoptimiza原
田素雷,张勇,张磊,
(
low-power
6
)
等
:
.
基于门控时钟技术的
(
MCU
inChinese
[J].Microelectronics
)
&
[8]
Computer
,
2017
,
3426-30.
设计
[J].
无线电工程,
2010
,
40
(
5
):
57-60.
IC
低功耗
TIAN
clocktechnology
SL
,
ZHANGY
,
ZHANGL
,
ationofgating
[9]
2010
Susan
,
40
Hong.
(
5
):
MCU
57-60
inIC
产品的低功耗技术
(
in
design
Chinese
[J].
)
Radio
.
EngineeringofChina
,
2016
,
33
(
3
):
30-32.
[J].
集成电路应用,
HONG
tionsof
S.
IC
Low
,
2016
power
,
33
(
technology
3
):
30-32
(
of
in
MCU
Chinese
products[J].
)
Applica原
[10]
千路,
合[J].半导体技术,
林平分
.ASIC
2008
后端设计中的时钟偏移以及时钟树综
QIANL,
,
skew
33(6
and
):527-529.
(
SIC
6
):
backend
527-529
design
(
inChinese
[J].Semiconductor
clock
)
.
Technology
treesynthesis
,
2008
in
,
A原
33
[11]
刘慧君,
钟树综合方案
谢亮,
[J].
金湘亮
微电子学,
.
一种实现时序快速有效收敛的时
LIUHJ
,
XIEL
,
JINXL.A
2017
clock
,
tree
47
(
5
synthesis
):
670-673.
fastandeffectiveclosureoftiming[J].Microelectronics
scheme
,
2017
for
,
[12]
祝雪菲,
47
(
5
):
670-673
张万荣,
(
in
万培元,
Chinese
)
等
.
的方法
[J].
微电子学,
2015
,
45
.
(
一种有效实现
4
):
474-478
,
483.
IC
时序收敛
ZHUXF
,
ZHANGWR
,
WANPY
,
dforeffi原
[13]
邓尧之,
2015
cient
,
timing
45
(
万培元,
4
):
convergence
474-478
刘世勋,
,
483
in
等
(
IC
.
in
design
一种高效时钟树综合实现方
Chinese
)
[J].
.
Microelectronics
,
DENG
法
[J].
半导体技术,
YZ
,
WANP
2012
Y
,
,
LIU
37
(
S
3
)
X
:
,
169-171
,
179.
ofefficient
(
clock
3
):
169-171
treesynthesis
,
179
(
[J].
inChinese
Semiconductor
)
.
Technology
,
2012
,
37
[14]EWETZ
tiontoclock
R
,
KOH
treesynthesis
[J].
clock
Integration
scheduling
,
2017
and
,
an
56
applica原
:
[15]
127.
115-
TENACE
body
V
,
MIRYALAS
,
CALIMERAA
,
-based
538.
pensation
-bias
[J].
assignment
Microelectronics
fordynamic
Journal
thermal
,2014
clock
,45
-skew
(5):530-
com原
[16]KIM
forlow
J
,
power[J].
ry
Integration
optimization
,
2017
,
56
:
of
86-95.
bufferedclocktrees
[17]SITIK
clocks[J].
C
,
TASKIN
Integration
B.
,
Iterative
2014
,
47
skew
(
3
):
minimization
356-364.
forlowswing
[18]
tegrity
EUDES
[19]
Theory
through
T
,
RAVELO
JOOD
and
J
,
KIM
Applications
clockH-tree[J].
is
,
2013
buffer
,
International
ofmulti-gigabits
41
(
polarity
5
):
535-549.
Journal
signal
ofCircuit
in原
usefulskewconstraints[J].Integration
,
2017
,
assignment
57
:
52-61.
under
[20]
Integration
mitigating
PARKSD
,
on-package
,
KIMTW.
2014
,
47
(
4
variation
Edgelayer
476-486.
in3D
embedding
clocktree
algorithm
synthesis[J].
for
):
本文引文格式:
陈力颖,罗奎,王浩,等
.
基于
55nm
工艺的
MCU
低功耗物
CHEN
理设计
[J].
天津工业大学学报,
2021
,
40
(
3
):
77-82.
sign
University
of
L
MCU
Y
,
LUO
,
2021
based
K
,
WANG
,
40
(
on
3
)
55
H
,
erphysicalde原
:
77-82
nmprocess[J].
(
inChinese
Journal
)
.
ofTiangong
.. All Rights Reserved.
2024年4月15日发(作者:徐笑旋)
第
40
卷第
3
期
圆园21
年
6
月
天津工业大学学报
允韵哉砸晕粤蕴韵云栽陨粤晕GONG哉晕陨灾耘砸杂陨栽再
Vol.40No.3
June2021
DOI
:
10.3969/.1671-024x.2021.03.012
基于
55nm
工艺的
MCU
低功耗物理设计
2222
陈力颖
1
,
,罗奎
1
,
,王浩
1
,
,刘宏伟
1
,
,吕英杰
3
(
1.
天津工业大学电子与信息工程学院,天津
300387
;
2.
天津工业大学天津市光电检测技术与系统重点实验室,
天津
300387
;天津
300450
)
3.
天津鹏翔华夏科技有限公司,
摘要:为了降低芯片的功耗,提高芯片的性能和可靠性,在传统数字芯片物理设计流程基础上,提出一种新的低
功耗物理设计方法,包括布局(
Placement
)阶段采用
SAIF
文件进行低功耗的协同优化,并在布局结果基础
上,通过手动配置时钟单元摆放来减小缓冲单元插入的方式进行低功耗的时钟树设计。结果表明:通过新
的低功耗设计可以大幅改善芯片功耗,在布局阶段,芯片功耗降为原来的
90.6%
,建立时间的最差违例值
由
-6.021
降为
-0.880
;时钟树综合(
clocktreesynthesis
,阶段,功耗优化效果显著,时钟网络功耗降为
CTS
)
原来的
73.1%
,总功耗降为原来的
86.2%
;时序得到改善,建立时间的违例总条数降为原来的
12.5%
,总违
例值降为原来的
3.0%
,保持时间的违例总条数降为原来的
39.8%
,总违例值降为原来的
7.5%
。
关键词:数字集成电路;布局;时钟树综合;低功耗;协同优化
TN492
中图分类号:
A
文献标志码:
园3原园园77原06
文章编号:
员远苑员原园圆源载
(
圆园21
)
LowpowerphysicaldesignofMCUbasedon55nmprocess
TiangongUniversity
,
Tianjin300387
,
China
;
nKeyLabo原
(
ofElectronicsandInformationEngineering
,
ratoryofOptoelectronicDetectionTechnologyandSystems
,
TiangongUniversity
,
Tianjin300387
,
China
;
n
PengxiangHuaxiaTechnologyCo.
,
Ltd.
,
Tianjin300450
,
China
)
2222
.. All Rights Reserved.
CHENLi-ying
1
,
LUOKui
1
,
WANGHao
1
,
,,,
LIUHong-wei
1
,
,
LYUYing-jie
3
Abstract
:
Inordertoreducethepowerconsumptionofthechipandimprovetheperformanceandreliabilityofthechip袁a
newlowpowerphysicaldesignmethodisproposedbasedonthetraditionaldigitalchipphysicaldesignprocess袁
whichincludestheuseofSAIFfileintheplacementstageforlow-powercollaborativeoptimization袁andonthe
basisoftheplacementresults袁thedesignoflow-powerclocktreeiscarriedoutbymanuallyconfiguringthe
ultsshowthatthechippowerconsumptioncanbe
reducedto90.6%袁andtheworstviolationvalueofsetupisreducedfrom-6.021to-0.880曰intheclocktree
synthesisstage袁thepowerconsumptionoptimizationeffectissignificant袁thepowerconsumptionofclocknet鄄
ofholdviolationisreducedto39.8%andthetotalviolationvalueisreducedto7.5%.
greatlyimprovedthroughthenewlowpowerdesign院inthestageofplacement袁thechippowerconsumptionis
workisreducedto73.1%袁andthetotalpowerconsumptionisreduceto86.2%.Thetimeisimproved袁thetotal
numberofsetupviolationsisreducedto12.5%andthetotalviolationvalueisreducedto3.0%袁thetotalnumber
(
CTS
);
lowerpower
;
collaborativeoptimizationKeywords
:
digitalintegratedcircuit
;
placement
;
clocktreesynthesis
随着集成电路制造工艺水平的提高,芯片的集成
度越来越高,在芯片性能大幅提升、面积持续缩小的
同时,低功耗设计成为无法回避的难题
[1]
。过高的功耗
会降低芯片的性能和可靠性,额外增加芯片的封装成
本,所以低功耗设计一直是芯片设计的主要方向
[2]
。在
2020-06-08
收稿日期:
数字芯片的低功耗物理设计中,时钟信号是整个芯片
中翻转频率最高、驱动负载最大和传输距离最远的信
40%
。所以,时钟树设计是低功耗物理设计的主要方向
号
[3]
,时钟网络功耗通常能占到芯片总功耗的30%~
之一。好的时钟树设计是建立在合理的布局结果之上
基金项目:国家留学基金资助项目(
2
);天津市研究生科研创新项目(
2019YJSS019
)
通信作者:陈力颖(
1976
—),男,博士,副教授,主要研究方向为射频集成电路和数模混合集成电路设计。
:
*****************
-78-
天津工业大学学报第
40
卷
的,所以本文在布局和时钟树综合两个方面进行低功
耗设计,在布局阶段采用
SAIF
文件进行低功耗的协
同优化,并在布局结果基础上,通过手动干预时钟单
元摆放来减小缓冲单元插入的方式进行低功耗时钟
树设计
[4]
。
本文以一个应用于低功耗物联网(
IoT
)领域的
微控制单元
55nm
(
MCU
)设计为例。设计采用台积电(
TSMC
)
约为
300
工艺,
万门,包含
芯片面积为
89
2.13
个宏单元,最高频率为
mm伊2.22mm
,芯片规模
MHz
,借助新一代
Innovus
布局布线工具,在传统低功
120
耗物理设计流程基础上,研究新的低功耗设计方法。
1MCU
低功耗物理设计
随着数字集成电路工艺制程的演进,对芯片功耗
的要求越来越高
[5]
。
MCU
低功耗设计可以分为
3
个部
分:第
1
部分是系统与架构级的低功耗设计,比如多
电压域设计技术、电源关断技术、动态电压频率调节
(
DVFS
)技术等
[6]
;第
2
部分是
RTL
编码和逻辑综合的
低功耗设计,
3
部分是数字电路在物理设计阶段的低功耗设计,
比如门控时钟和操作数隔离技术等
[7]
;第
要是基于门级电路的低功耗设计,比如多阈值电压和
主
多沟道长度标准单元库的选用、多位寄存器优化、翻
转率负载协同优化、低功耗时钟树设计等
[8]
。本文主要
是在物理设计过程中进行低功耗的设计。完整的物理
设计流程从布图规划(
floorplan
)、布局(
placement
)、时
钟树综合(
clocktreesynthesis
)、布线(
route
)到静态时
序分析
veri-fication
(
static
)。时钟树功耗、
timinganalysis
处理器
)与物理验证
(
CPU
)和存储器功
(
physical
耗占了芯片总功耗的绝大部分
[9]
,而
CPU
功耗及存储
器功耗取决于芯片的整体布局,所以在布局和时钟树
综合阶段进行低功耗设计能最大程度地降低功耗。
数字电路的总功耗可表示为:
P
total
=
1
2
C
L
V
DD
2
伊T
r
+t
sc
V
DD
I
peak
伊T
r
+V
DD
I
leakage
(
1
)
式中:第
1
个乘积项为开关功耗,由电路翻转对外部
负载
C
L
充放电产生的功耗;第
2
个乘积项为短路功
耗,为电路
NMOS
和
PMOS
同时导通形成的短路电流
I
peak
产生的功耗,这两项为电路工作时产生的功耗,称
为动态功耗,动态功耗往往能占到芯片总功耗的
80%
左右;第
3
项为泄漏功耗,为晶体管的沟道、栅极、衬
底等非理想漏电流
I
T
leakage
产生的功耗,也称静态功耗;
r
为信号单位时间的翻转次数,称为翻转率(
toggle
rate
的静态概率,
);
t
sc
为短路电流的产生时间,其值取决于输入信号
静态概率也称信号的占空比。所以数字
电路功耗的计算跟电路的开关行为(
switchingactivity
)
有关,即信号的翻转率和静态概率,在低功耗的物理
设计中明确电路的开关行为是非常有必要的。
2
低功耗物理设计流程
低功耗设计需要在功耗和时序之间找到一个平
衡点,即在时序能够收敛的情况下,使功耗尽可能降
低
[10]
。在标准单元摆放和时钟树设计完成后,标准单元
的位置基本不会有大的改动,后续优化过程中,为了
不影响时序,一般不会大规模的修改时钟线,所以芯
片功耗一般不会有大的增加。本文在传统物理设计流
程基础上,重点在布局和时钟树综合阶段进行低功耗
设计。在布局阶段采用翻转率负载协同优化的设计方
法进行低功耗设计,并在布局之前将部分时钟单元进
行优先手动摆放;在布局结果基础上,通过手动干预
时钟单元摆放来降低缓冲单元插入的方法进行低功
耗的时钟树设计。图
1
为本文低功耗设计的流程,布
局前将
SAIF
文件读入,设置低功耗驱动命令,并进行
部分时钟单元的手动摆放,布局后结合传统时钟树设
计方法进行低功耗的时钟树设计。
Floorplan
数据
标准单元布局
读入(
GigaPlace
)
功耗驱动优化
布局后时序优化
设定
(
GigaOpt
)
SAIF
文件读入
时钟树规范文件
读入
包含时钟单元位置
信息
DEF
读入
时钟树综合
图
1
功耗优化流程
Fig.1Powerconsumptionoptimizationprocess
3
布局阶段的低功耗设计
3.1SAIF
协同优化
布局阶段主要进行标准单元的摆放,本文在布局
阶段采用
SAIF
翻转率协同优化的方式进行低功耗的
设计。
SAIF
(
switchingactivityinterchangeformat
)文件
是一种记录电路开关行为的内部交换格式文件,记录
了在某种工作场景下、一段时间内互连线和单元引脚
上信号静态概率和翻转率的情况,由综合后经仿真得
.. All Rights Reserved.
第
3
期陈力颖,等:基于
55nm
工艺的
MCU
低功耗物理设计
-79-
到。开关行为(
switchingactivity
)指的是设计中翻转率
和静态概率的情况。本文在布局阶段利用
Innovus
的功
耗驱动优化命令与
SAIF
文件进行低功耗的协同优化,
将
SAIF
read_activity_file
文件在标准单元布局之前通过如下命令读入:
tbench/u_mcu/u_sys/verify_env/dut
-formatSAIF$inputSAIF-scope
并在布局阶段进行如下的功耗驱动优化设置:
setOptMode
setPlaceMode
-powerEfforthigh
setPlaceMode
-activity_power_driven
SAIF
文件主要能起到两个效果:
-activity_power_driven_effort
true
一是提高功耗计
high
算的准确性,得到更为准确的功耗值。不管是动态功
耗还是静态功耗的计算都与设计中信号翻转率和静
态概率情况密切相关。二是结合功耗驱动命令进行功
耗的协同优化,布局布线工具会结合
SAIF
文件中开
关行为的情况,将翻转率较高的时序单元进行聚拢配
置,减小时序单元之间的配线长度,达到减小翻转功
耗的目的。在布局前读入
SAIF
文件要保证
SAIF
中标
注的开关行为覆盖率(
annotationcoverage
)达到
90%
以
上才能达到良好效果,通过查看布局阶段的
log
文件,
本设计中开关行为的覆盖率达到了
98.5%
,满足要求。
图
2
为
SAIF
协同优化配置前后分布,图中黄色
方框内为
CPU
模块的分布。由图
2
可以明显看出,采
用
SAIF
协同优化后,
CPU
内核模块翻转率较高的
D
触发器相比原来聚拢效果明显,进而缩短了他们之间
的布线长度,可以有效降低
CPU
功耗,同时也有利于
时序的收敛。结果表明,采用
SAIF
文件进行协同优化
的方案,
3.2SAIF
功耗比原来降低
协同优化
+
动态功耗优化
5.2%
。
降低功耗的作用,
SAIF
文件与低功耗命令的协同优化虽然能起到
但功耗优先的优化模式促使布局布
线工具大量的使用了小尺寸单元进行时序优化,因为
小尺寸优化单元的驱动能力较低,布局布线工具会插
入大量的低驱动能力单元进行优化,使总体占有率增
高,并最终导致时序的恶化,特别是建立时间总违例
值变差。为了减小低驱动单元的大量使用,在布局阶
段进行动态功耗优化的设定,让布局布线工具在进行
布局优化时只进行动态功耗的优化,进行如下命令的
设置:
图
setOptMode
3
为两种优化方法和传统布局在插入的优化
-leakageToDynamicRatio0
单元数量上的对比,优化单元包括缓冲器(
buffer
)和
反相器
X90
之间。
(
inverter
),优化单元的驱动能力处于
X02
到
(
a
)配置前
(b)配置后
图
2
配置前后
CPU
模块分布
Fig.2DistributionofCPUmodulebeforeandafter
configuration
120
100
000
80
000
传统布局
60
000
SAIF
SAIF
协同优化
动态功耗优化
协同优化+
40
000
20
000
000
0
X02X06
优化单元驱动能力大小
X16X30X60X90
图
3
优化后驱动单元使用数量对比
Fig.3Comparisonofdrivingcellnumberafter
optimization
由图
3
可以看出,采用
SAIF
的协同优化后,在布
局阶段插入的低驱动能力单元数量与传统布局相比
大幅增加,这是导致时序恶化的主要原因。而在
SAIF
.. All Rights Reserved.
-80-
天津工业大学学报第
40
卷
协同优化的基础上进行动态功耗优化后,低驱动单元
的使用数量相比采用
SAIF
协同优化明显降低。低驱
动单元的使用数量降低,能使布局阶段整体的占有率
降低,
3.3
布局后结果对比
一定程度上能够遏制时序的恶化。
表
1
为布局阶段
2
种组合优化方式与传统布局
的结果对比。
表
1
布局后结果对比
Tab.1Comparisonofresultsafterplacement
分类传统布局
SAIF
协同优化
SAIF
动态功耗优化
协同优化
+
建立时间
WNS/ns-6.021-2.120-0.880
建立时间
TNS/ns-373-518.240-325.910
违例条数
NUM0
短路功耗
/mW17.56016.66015.910
开关功耗
/mW52.66049.95047.710
泄漏功耗
/mW0.0120.0120.011
总功耗
/mW70.24066.62063.640
功耗削减
/%5.29.4
由表
1
可以看出,采用基于
SAIF
的协同优化和
动态功耗优化
9.4
(
-0.880
%
,建立时序
Dynamic
(
setup
)
)
最差违例值从
组合的总功耗比原来削减了
-6.021
优化为
时,时序也得到了优化,
。由此说明,在布局阶段功耗得到了优化的同
这种优化方案在布局阶段起
到的效果最好。
4
时钟树综合阶段的低功耗设计
40
时钟网络功耗通常能占到芯片总功耗的
30%~
内容
%
,所以时钟树设计往往是低功耗物理设计的重要
[11]
。时钟树综合(
CTS
)就是建立一个合理的时钟网
络,使时钟信号传递到每一个时序器件的延迟尽可
能一致,做到时钟树的尽可能平齐。为了实现时钟结
构的平齐,工具会插入大量缓冲器(
buffer
)和反相器
(
inverter
)进行平衡,大量
buffer
和
inverter
的插入会导
致功耗的恶化
[12]
,所以低功耗的时钟树设计往往以降
低缓冲单元的插入为目标。缓冲器在
CTS
阶段主要起
到两种作用:一种是为了平衡延迟;另一种是为了驱
动负载
[13]
。所以,本文在布局阶段的低功耗设计基础
上,在减少平衡缓冲器和驱动缓冲器两个方向上进行
低功耗的时钟树设计。
4.1
传统时钟树设计方法
传统时钟树设计方法有:
(
1
)分析时钟结构,设计合理的时钟树方案
[14]
。
(
2
)根据时钟树方案,编写时钟树设计规范文件
(
clockspec
),包括定义时钟根节点(
rootpin
)和一些需
要特殊处理的时钟节点,设置合理的时钟偏斜
skew
等
[15]
)
。
、
Innovus
转换时间
的
(
(
clock
CCOPT
transition
引擎会根据该文件进行时钟
)、最大扇出值(
maxfanout
)
树构建。
(
3
)指定缓冲单元、反相器和门控时钟单元的使
用类型和大小。缓冲单元和反相器一般避免使用过大
或过小尺寸的单元,多使用时钟缓冲器(
CLKBUF
)和
反相器(
CLKINV
),这种类型单元的上升渡越时间和
下降渡越时间基本一致,带来的延迟误差更小。门控
时钟则尽可能使用小尺寸单元。
(
4
)设定时钟树的布线层,一般选用电阻电容较
小的金属层,
cut
)布线
为了提高可靠性,多使用双孔(
double
[16]
。
les
扰(
)
(
crosstalk
,目的是为了减小时钟树电阻和耦合电容,
5
)设定时钟布线的非默认规则(
non-defaultru-
低功耗设计方法
)的影响
[17]
避免串
4.2
。
本文在
Innovus
的
CCOPT
引擎下,结合传统时钟
树设计方法,采用一种新的低功耗时钟树设计方案,
在布局之前将一些关键路径上的时钟单元进行手动
摆放,在降低功耗的同时优化时序。本文采用了如下
3
种方法:
(
1
)时钟相关模块设置
region
的物理约束,将其
与时钟振荡器进行邻近配置,目的是为了尽量减小平
衡缓冲器的插入。
region
的物理约束能将模块内的标
准单元约束在指定的区域内进行摆放,设置合理的模
块利用率,让非该模块内的标准单元也能在该区域进
行摆放,不至于影响整体的布局效果
[18]
。表
2
为进行配
置的模块。
表
2
物理约束的设置对象
Tab.2Settingsobjectsforphysicalconstraint
模块名配置内容
cspf/sysss/syspf/clkmc/nc_osc
将该噪声滤波器模块配置在主振荡
器输出附近
cspf/sysss/syspf/clkmc/nc_osc32k
将该噪声滤波器模块配置在子振荡
器输出附近
cspf/sysss/syspf/cpg
pericore/mp200/rtc
将该模块配置在子振荡器输出附近
将该模块配置在振荡器输出附近
(
2
)在时钟模块与邻近配置的前提下,依次进行
部分时钟单元的手动插入,确保距离时钟振荡器足够
近,尽可能地减小平衡缓冲器的插入。根据时钟结构,
在时钟根节点进行分级。从时钟源(主振荡器
HOCO
等)
.. All Rights Reserved.
第
3
期陈力颖,等:基于
55nm
工艺的
MCU
低功耗物理设计
-81-
到
CTS
CPG
模块内的时钟选择器的路径定义为第
0
级
级
leaf
CTS
电路;从时钟选择器到时钟分频电路定义为第
电路;从时钟分频电路到时钟叶节点(
1
前将第
)定义为第
1
级起点的时钟选择器和第
2
级
CTS
电路。采用的方法是在布局之
clock
2
级起点的时钟
分频电路单元,用命令从振荡器旁开始依次进行提前
摆放,再以
DEF
格式文件将其输出,在布局前进行读
入,提高设计的可重复性。时钟单元手动摆放的命令
如下:
562.30
placeInstancecspf/
(
3
)对第
458.40-fixed
sysp/vc_and_stop_selclkm4stp
1
段
CTS
电路的部分扇出(
fanout
)进行
手动分割,减少多余驱动缓冲器的插入,避免时钟结
构的冗余。与门
CTS
selclk
后原本有
21
个扇出,在传统
冲器的插入。
设计下,工具进行了多余分割,
CTS
阶段设定的最大扇出
导致了
(
max
6
个多余缓
fanout
)
为
24
,发现一个
buffer
完全可以驱动
21
个扇出,所以
在
者重新进行分割。
touch
CTS
属性,
之前进行手动分割,
确保
CTS
阶段工具不会插入多余
并对相应时钟线设置
buffer
don忆t
或
4.3
时钟树综合结果对比
时钟树的低功耗设计是将部分时钟单元进行手
动摆放以优化时钟结构,避免性能冗余
[19]
,尽可能少地
插入缓冲单元和反相器,来达到降低时钟功耗和优化
时序的目的
[20]
。表
3
为时钟结构上插入的缓冲器和反
相器数量对比,由表
3
可知,与传统
CTS
相比,手动配
置
CTS
时时钟树上插入的缓冲器单元和反相器数量
分别降低了
17.2%
和
22.2%
。
表
3
时钟缓冲器优化结果对比
Tab.3Comparisonofclockbufferoptimizationresults
分类时钟树缓冲器数量时钟树反相器数量
传统
CTS62754.0
手配
CTS51942.0
改善率
/%17.222.2
表
4
为本文采用的时钟树低功耗设计与传统
CTS
的功耗对比。由表
4
可知,通过时钟单元的手动配置,
时钟功耗下降为原来的
73.1%
,芯片总功耗下降为原
来的
86.2%
,达到了明显降低功耗的效果。
表
5
、表
6
为本文在时钟树综合后进行一遍时序
优化后的时序结果对比。
14
到,
,总的违例值从
由表
5
可以看到,
setup
的违例条数从
112
降为
hold
的违例条数从
-38.793
445
降为
降为
-1.154
177
,总的违例值从
。由表
6
可以看
表
4
功耗结果对比
Tab.4Comparisonofpowerconsumption
分类功耗分类
短路功耗
传统
CTS
时钟功耗
mW
/
开关功耗
/
泄漏功耗
/
分类总功
耗
/mW
总功耗
031.360
mW
0.006
mW
手配
CTS
时钟功耗
21.860
8.070
总功耗
0
65.5000.015
39.450
18.830
5.89022.910
56.430
0.004
87.450
0.013
28.820
75.340
表
5
建立时间结果对比
Tab.5Comparisonofsetuptiming
分类
建立时间(
setup
)
传统
CTS
WNS/ns
-0.697-38.793
TNS/nsNUM/
112
条
手配
CTS-0.174-1.154014
表
6
保持时间结果对比
Tab.6Comparisonofholdtiming
分类
保持时间(
hold
)
传统
CTS
WNS/ns
-1.275-45.360
TNS/nsNUM/
445
条
手配
CTS-0.2200-3.420177
-45.36
序的优化效果明显,
降为
-3.42
。由此说明,
违例值的改善大大减轻了后续的
本文的时钟树设计对时
逻辑优化,缩短了设计周期,使整体的占有率降低,从
而降低了整体功耗。
5
结论
MCU
本设计借助新一代布局布线工具
Innovus
,在传统
SAIF
物理设计流程基础上进行功耗优化,包括基于
基础上,
文件协同优化的低功耗布局设计,
进行手动配置部分时钟单元的低功耗时钟树
并在布局结果
设计。本文通过在布局和时钟树综合
2
个阶段进行低
功耗设计,能够达到优化功耗和时序的效果,缩短了
设计周期,结果表明:
(
1
)在布局阶段,芯片功耗降为原来的
90.6%
,建
立时间的最差违例值由
-6.021
优化为
-0.880
;
(
2
)时钟树综合阶段,功耗优化的效果明显,时钟
功耗降为原来的73.1%。时序得到改善,建立时间违例
的总条数降为原来的
3.0%
,保持时间的违例总条数降为原来的
12.5%
,总违例值降为原来的
例值降为原来的
7.5%
。
39.8%
,总违
参考文献:
[1]
戈喆,王志鸿,厉媛玥
.
基于
Innovus
的低功耗物理设计
[J].
.. All Rights Reserved.
-82-
天津工业大学学报第
40
卷
电子技术应用,
2016
,
42
(
8
):
21-24.
GE
Innovus
Z
,
WANGZH
,
erphysicaldesignin
(8):21-24
[J].
(in
Application
Chinese).
ofElectronicTechnique,2016,42
[2]
王欣宇
用,
WANG
2019
.
一种低功耗
,
36
(
5
):
MCU
芯片的设计方法
[J].
集成电路应
ofIC
,
2019
XY.
,
A
36
(
design
16-18.
5
):
16-18
oflow
(
power
inChinese
MCU
)
.
chip[J].Applications
[3]
67.
高效时钟树设计
陈力颖,翦彦龙,
[J].
吕英杰
天津工业大学学报,
.
基于
28nm
工艺的
2019
,
CCOpt
38
(
2
):
技术
62-
CHEN
byCCOpt
LY
technology
,
JIANYL
for
,
LYU
28nm
YJ.
process
Design
[J].
ofefficient
Journal
clock
ofTianjin
tree
[4]
Polytechnic
戈喆,付娟,
University
王沛东,
,
等
2019
.
低功耗时钟树设计的结构分析和
,
38
(
2
):
62-67
(
inChinese
)
.
优化
GEZ
[J].
,
FU
中国集成电路,
J
,
WANG
power
PD
2017
,
clock
et
,
al.
26
(
tree
Clock
9
):
30-34.
[J].
structure
ChinaIntegrated
analysis
Cir原
and
[5]
朱伟弟
cuit
optimization
,
2017
“漫谈”
.
,
26
for
(
low
MCU
9
):
30-34
物联网应用场景
(
inChinese
)
[J].
.
统应用,
2019
,
19
(
4
):
86-87.
单片机与嵌入式系
ZHU
nario[J].
WD.
Microcontrollers
"Ramble"MCU
&Embedded
Internetof
Systems
thingsapplication
,
2019
,
19
(
sce原
86-87
(
inChinese
)
.
4
):
[6]
87-90.
理设计方法与实现
谢旦杰,魏敬和,于宗光
[J].
微电子学与计算机,
.
一种基于
CPF
格式的低功耗物
2019
,
36
(
3
):
XIE
method
DJ
and
,
WEI
implementation
JH
,
YUZ
&Computer
based
G.A
,
2019
on
low
,
common
-powerphysicaldesign
36
(
3
):
power
87-90
format[J].
(
inChi原
[7]
nese
Microelectronics
杨紫薇,
)
.
朱致玖,袁甲,等
.
一种针对低功耗
MCU
关断模
26-30.
式的功耗优化方法
[J].
微电子学与计算机,
2017
,
34
(
6
):
YANG
tionofthe
ZW
off
,
ZHU
mode
Z
of
J
,
YUANJ
,
andoptimiza原
田素雷,张勇,张磊,
(
low-power
6
)
等
:
.
基于门控时钟技术的
(
MCU
inChinese
[J].Microelectronics
)
&
[8]
Computer
,
2017
,
3426-30.
设计
[J].
无线电工程,
2010
,
40
(
5
):
57-60.
IC
低功耗
TIAN
clocktechnology
SL
,
ZHANGY
,
ZHANGL
,
ationofgating
[9]
2010
Susan
,
40
Hong.
(
5
):
MCU
57-60
inIC
产品的低功耗技术
(
in
design
Chinese
[J].
)
Radio
.
EngineeringofChina
,
2016
,
33
(
3
):
30-32.
[J].
集成电路应用,
HONG
tionsof
S.
IC
Low
,
2016
power
,
33
(
technology
3
):
30-32
(
of
in
MCU
Chinese
products[J].
)
Applica原
[10]
千路,
合[J].半导体技术,
林平分
.ASIC
2008
后端设计中的时钟偏移以及时钟树综
QIANL,
,
skew
33(6
and
):527-529.
(
SIC
6
):
backend
527-529
design
(
inChinese
[J].Semiconductor
clock
)
.
Technology
treesynthesis
,
2008
in
,
A原
33
[11]
刘慧君,
钟树综合方案
谢亮,
[J].
金湘亮
微电子学,
.
一种实现时序快速有效收敛的时
LIUHJ
,
XIEL
,
JINXL.A
2017
clock
,
tree
47
(
5
synthesis
):
670-673.
fastandeffectiveclosureoftiming[J].Microelectronics
scheme
,
2017
for
,
[12]
祝雪菲,
47
(
5
):
670-673
张万荣,
(
in
万培元,
Chinese
)
等
.
的方法
[J].
微电子学,
2015
,
45
.
(
一种有效实现
4
):
474-478
,
483.
IC
时序收敛
ZHUXF
,
ZHANGWR
,
WANPY
,
dforeffi原
[13]
邓尧之,
2015
cient
,
timing
45
(
万培元,
4
):
convergence
474-478
刘世勋,
,
483
in
等
(
IC
.
in
design
一种高效时钟树综合实现方
Chinese
)
[J].
.
Microelectronics
,
DENG
法
[J].
半导体技术,
YZ
,
WANP
2012
Y
,
,
LIU
37
(
S
3
)
X
:
,
169-171
,
179.
ofefficient
(
clock
3
):
169-171
treesynthesis
,
179
(
[J].
inChinese
Semiconductor
)
.
Technology
,
2012
,
37
[14]EWETZ
tiontoclock
R
,
KOH
treesynthesis
[J].
clock
Integration
scheduling
,
2017
and
,
an
56
applica原
:
[15]
127.
115-
TENACE
body
V
,
MIRYALAS
,
CALIMERAA
,
-based
538.
pensation
-bias
[J].
assignment
Microelectronics
fordynamic
Journal
thermal
,2014
clock
,45
-skew
(5):530-
com原
[16]KIM
forlow
J
,
power[J].
ry
Integration
optimization
,
2017
,
56
:
of
86-95.
bufferedclocktrees
[17]SITIK
clocks[J].
C
,
TASKIN
Integration
B.
,
Iterative
2014
,
47
skew
(
3
):
minimization
356-364.
forlowswing
[18]
tegrity
EUDES
[19]
Theory
through
T
,
RAVELO
JOOD
and
J
,
KIM
Applications
clockH-tree[J].
is
,
2013
buffer
,
International
ofmulti-gigabits
41
(
polarity
5
):
535-549.
Journal
signal
ofCircuit
in原
usefulskewconstraints[J].Integration
,
2017
,
assignment
57
:
52-61.
under
[20]
Integration
mitigating
PARKSD
,
on-package
,
KIMTW.
2014
,
47
(
4
variation
Edgelayer
476-486.
in3D
embedding
clocktree
algorithm
synthesis[J].
for
):
本文引文格式:
陈力颖,罗奎,王浩,等
.
基于
55nm
工艺的
MCU
低功耗物
CHEN
理设计
[J].
天津工业大学学报,
2021
,
40
(
3
):
77-82.
sign
University
of
L
MCU
Y
,
LUO
,
2021
based
K
,
WANG
,
40
(
on
3
)
55
H
,
erphysicalde原
:
77-82
nmprocess[J].
(
inChinese
Journal
)
.
ofTiangong
.. All Rights Reserved.