最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

基于55 nm 工艺的MCU 低功耗物理设计

IT圈 admin 35浏览 0评论

2024年4月15日发(作者:徐笑旋)

40

卷第

3

圆园21

6

天津工业大学学报

允韵哉砸晕粤蕴韵云栽陨粤晕GONG哉晕陨灾耘砸杂陨栽再

Vol.40No.3

June2021

DOI

10.3969/.1671-024x.2021.03.012

基于

55nm

工艺的

MCU

低功耗物理设计

2222

陈力颖

1

,罗奎

1

,王浩

1

,刘宏伟

1

,吕英杰

3

1.

天津工业大学电子与信息工程学院,天津

300387

2.

天津工业大学天津市光电检测技术与系统重点实验室,

天津

300387

;天津

300450

3.

天津鹏翔华夏科技有限公司,

摘要:为了降低芯片的功耗,提高芯片的性能和可靠性,在传统数字芯片物理设计流程基础上,提出一种新的低

功耗物理设计方法,包括布局(

Placement

)阶段采用

SAIF

文件进行低功耗的协同优化,并在布局结果基础

上,通过手动配置时钟单元摆放来减小缓冲单元插入的方式进行低功耗的时钟树设计。结果表明:通过新

的低功耗设计可以大幅改善芯片功耗,在布局阶段,芯片功耗降为原来的

90.6%

,建立时间的最差违例值

-6.021

降为

-0.880

;时钟树综合(

clocktreesynthesis

,阶段,功耗优化效果显著,时钟网络功耗降为

CTS

原来的

73.1%

,总功耗降为原来的

86.2%

;时序得到改善,建立时间的违例总条数降为原来的

12.5%

,总违

例值降为原来的

3.0%

,保持时间的违例总条数降为原来的

39.8%

,总违例值降为原来的

7.5%

关键词:数字集成电路;布局;时钟树综合;低功耗;协同优化

TN492

中图分类号:

A

文献标志码:

园3原园园77原06

文章编号:

员远苑员原园圆源载

圆园21

LowpowerphysicaldesignofMCUbasedon55nmprocess

TiangongUniversity

Tianjin300387

China

nKeyLabo原

ofElectronicsandInformationEngineering

ratoryofOptoelectronicDetectionTechnologyandSystems

TiangongUniversity

Tianjin300387

China

n

PengxiangHuaxiaTechnologyCo.

Ltd.

Tianjin300450

China

2222

.. All Rights Reserved.

CHENLi-ying

1

LUOKui

1

WANGHao

1

,,,

LIUHong-wei

1

LYUYing-jie

3

Abstract

Inordertoreducethepowerconsumptionofthechipandimprovetheperformanceandreliabilityofthechip袁a

newlowpowerphysicaldesignmethodisproposedbasedonthetraditionaldigitalchipphysicaldesignprocess袁

whichincludestheuseofSAIFfileintheplacementstageforlow-powercollaborativeoptimization袁andonthe

basisoftheplacementresults袁thedesignoflow-powerclocktreeiscarriedoutbymanuallyconfiguringthe

ultsshowthatthechippowerconsumptioncanbe

reducedto90.6%袁andtheworstviolationvalueofsetupisreducedfrom-6.021to-0.880曰intheclocktree

synthesisstage袁thepowerconsumptionoptimizationeffectissignificant袁thepowerconsumptionofclocknet鄄

ofholdviolationisreducedto39.8%andthetotalviolationvalueisreducedto7.5%.

greatlyimprovedthroughthenewlowpowerdesign院inthestageofplacement袁thechippowerconsumptionis

workisreducedto73.1%袁andthetotalpowerconsumptionisreduceto86.2%.Thetimeisimproved袁thetotal

numberofsetupviolationsisreducedto12.5%andthetotalviolationvalueisreducedto3.0%袁thetotalnumber

CTS

);

lowerpower

collaborativeoptimizationKeywords

digitalintegratedcircuit

placement

clocktreesynthesis

随着集成电路制造工艺水平的提高,芯片的集成

度越来越高,在芯片性能大幅提升、面积持续缩小的

同时,低功耗设计成为无法回避的难题

[1]

。过高的功耗

会降低芯片的性能和可靠性,额外增加芯片的封装成

本,所以低功耗设计一直是芯片设计的主要方向

[2]

。在

2020-06-08

收稿日期:

数字芯片的低功耗物理设计中,时钟信号是整个芯片

中翻转频率最高、驱动负载最大和传输距离最远的信

40%

。所以,时钟树设计是低功耗物理设计的主要方向

[3]

,时钟网络功耗通常能占到芯片总功耗的30%~

之一。好的时钟树设计是建立在合理的布局结果之上

基金项目:国家留学基金资助项目(

2

);天津市研究生科研创新项目(

2019YJSS019

通信作者:陈力颖(

1976

—),男,博士,副教授,主要研究方向为射频集成电路和数模混合集成电路设计。

E-mail

*****************

-78-

天津工业大学学报第

40

的,所以本文在布局和时钟树综合两个方面进行低功

耗设计,在布局阶段采用

SAIF

文件进行低功耗的协

同优化,并在布局结果基础上,通过手动干预时钟单

元摆放来减小缓冲单元插入的方式进行低功耗时钟

树设计

[4]

本文以一个应用于低功耗物联网(

IoT

)领域的

微控制单元

55nm

MCU

)设计为例。设计采用台积电(

TSMC

约为

300

工艺,

万门,包含

芯片面积为

89

2.13

个宏单元,最高频率为

mm伊2.22mm

,芯片规模

MHz

,借助新一代

Innovus

布局布线工具,在传统低功

120

耗物理设计流程基础上,研究新的低功耗设计方法。

1MCU

低功耗物理设计

随着数字集成电路工艺制程的演进,对芯片功耗

的要求越来越高

[5]

MCU

低功耗设计可以分为

3

个部

分:第

1

部分是系统与架构级的低功耗设计,比如多

电压域设计技术、电源关断技术、动态电压频率调节

DVFS

)技术等

[6]

;第

2

部分是

RTL

编码和逻辑综合的

低功耗设计,

3

部分是数字电路在物理设计阶段的低功耗设计,

比如门控时钟和操作数隔离技术等

[7]

;第

要是基于门级电路的低功耗设计,比如多阈值电压和

多沟道长度标准单元库的选用、多位寄存器优化、翻

转率负载协同优化、低功耗时钟树设计等

[8]

。本文主要

是在物理设计过程中进行低功耗的设计。完整的物理

设计流程从布图规划(

floorplan

)、布局(

placement

)、时

钟树综合(

clocktreesynthesis

)、布线(

route

)到静态时

序分析

veri-fication

static

)。时钟树功耗、

timinganalysis

处理器

)与物理验证

CPU

)和存储器功

physical

耗占了芯片总功耗的绝大部分

[9]

,而

CPU

功耗及存储

器功耗取决于芯片的整体布局,所以在布局和时钟树

综合阶段进行低功耗设计能最大程度地降低功耗。

数字电路的总功耗可表示为:

P

total

=

1

2

C

L

V

DD

2

伊T

r

+t

sc

V

DD

I

peak

伊T

r

+V

DD

I

leakage

1

式中:第

1

个乘积项为开关功耗,由电路翻转对外部

负载

C

L

充放电产生的功耗;第

2

个乘积项为短路功

耗,为电路

NMOS

PMOS

同时导通形成的短路电流

I

peak

产生的功耗,这两项为电路工作时产生的功耗,称

为动态功耗,动态功耗往往能占到芯片总功耗的

80%

左右;第

3

项为泄漏功耗,为晶体管的沟道、栅极、衬

底等非理想漏电流

I

T

leakage

产生的功耗,也称静态功耗;

r

为信号单位时间的翻转次数,称为翻转率(

toggle

rate

的静态概率,

);

t

sc

为短路电流的产生时间,其值取决于输入信号

静态概率也称信号的占空比。所以数字

电路功耗的计算跟电路的开关行为(

switchingactivity

有关,即信号的翻转率和静态概率,在低功耗的物理

设计中明确电路的开关行为是非常有必要的。

2

低功耗物理设计流程

低功耗设计需要在功耗和时序之间找到一个平

衡点,即在时序能够收敛的情况下,使功耗尽可能降

[10]

。在标准单元摆放和时钟树设计完成后,标准单元

的位置基本不会有大的改动,后续优化过程中,为了

不影响时序,一般不会大规模的修改时钟线,所以芯

片功耗一般不会有大的增加。本文在传统物理设计流

程基础上,重点在布局和时钟树综合阶段进行低功耗

设计。在布局阶段采用翻转率负载协同优化的设计方

法进行低功耗设计,并在布局之前将部分时钟单元进

行优先手动摆放;在布局结果基础上,通过手动干预

时钟单元摆放来降低缓冲单元插入的方法进行低功

耗的时钟树设计。图

1

为本文低功耗设计的流程,布

局前将

SAIF

文件读入,设置低功耗驱动命令,并进行

部分时钟单元的手动摆放,布局后结合传统时钟树设

计方法进行低功耗的时钟树设计。

Floorplan

数据

标准单元布局

读入(

GigaPlace

功耗驱动优化

布局后时序优化

设定

GigaOpt

SAIF

文件读入

时钟树规范文件

读入

包含时钟单元位置

信息

DEF

读入

时钟树综合

1

功耗优化流程

Fig.1Powerconsumptionoptimizationprocess

3

布局阶段的低功耗设计

3.1SAIF

协同优化

布局阶段主要进行标准单元的摆放,本文在布局

阶段采用

SAIF

翻转率协同优化的方式进行低功耗的

设计。

SAIF

switchingactivityinterchangeformat

)文件

是一种记录电路开关行为的内部交换格式文件,记录

了在某种工作场景下、一段时间内互连线和单元引脚

上信号静态概率和翻转率的情况,由综合后经仿真得

.. All Rights Reserved.

3

期陈力颖,等:基于

55nm

工艺的

MCU

低功耗物理设计

-79-

到。开关行为(

switchingactivity

)指的是设计中翻转率

和静态概率的情况。本文在布局阶段利用

Innovus

的功

耗驱动优化命令与

SAIF

文件进行低功耗的协同优化,

SAIF

read_activity_file

文件在标准单元布局之前通过如下命令读入:

tbench/u_mcu/u_sys/verify_env/dut

-formatSAIF$inputSAIF-scope

并在布局阶段进行如下的功耗驱动优化设置:

setOptMode

setPlaceMode

-powerEfforthigh

setPlaceMode

-activity_power_driven

SAIF

文件主要能起到两个效果:

-activity_power_driven_effort

true

一是提高功耗计

high

算的准确性,得到更为准确的功耗值。不管是动态功

耗还是静态功耗的计算都与设计中信号翻转率和静

态概率情况密切相关。二是结合功耗驱动命令进行功

耗的协同优化,布局布线工具会结合

SAIF

文件中开

关行为的情况,将翻转率较高的时序单元进行聚拢配

置,减小时序单元之间的配线长度,达到减小翻转功

耗的目的。在布局前读入

SAIF

文件要保证

SAIF

中标

注的开关行为覆盖率(

annotationcoverage

)达到

90%

上才能达到良好效果,通过查看布局阶段的

log

文件,

本设计中开关行为的覆盖率达到了

98.5%

,满足要求。

2

SAIF

协同优化配置前后分布,图中黄色

方框内为

CPU

模块的分布。由图

2

可以明显看出,采

SAIF

协同优化后,

CPU

内核模块翻转率较高的

D

触发器相比原来聚拢效果明显,进而缩短了他们之间

的布线长度,可以有效降低

CPU

功耗,同时也有利于

时序的收敛。结果表明,采用

SAIF

文件进行协同优化

的方案,

3.2SAIF

功耗比原来降低

协同优化

+

动态功耗优化

5.2%

降低功耗的作用,

SAIF

文件与低功耗命令的协同优化虽然能起到

但功耗优先的优化模式促使布局布

线工具大量的使用了小尺寸单元进行时序优化,因为

小尺寸优化单元的驱动能力较低,布局布线工具会插

入大量的低驱动能力单元进行优化,使总体占有率增

高,并最终导致时序的恶化,特别是建立时间总违例

值变差。为了减小低驱动单元的大量使用,在布局阶

段进行动态功耗优化的设定,让布局布线工具在进行

布局优化时只进行动态功耗的优化,进行如下命令的

设置:

setOptMode

3

为两种优化方法和传统布局在插入的优化

-leakageToDynamicRatio0

单元数量上的对比,优化单元包括缓冲器(

buffer

)和

反相器

X90

之间。

inverter

),优化单元的驱动能力处于

X02

a

)配置前

(b)配置后

2

配置前后

CPU

模块分布

Fig.2DistributionofCPUmodulebeforeandafter

configuration

120

100

000

80

000

传统布局

60

000

SAIF

SAIF

协同优化

动态功耗优化

协同优化+

40

000

20

000

000

0

X02X06

优化单元驱动能力大小

X16X30X60X90

3

优化后驱动单元使用数量对比

Fig.3Comparisonofdrivingcellnumberafter

optimization

由图

3

可以看出,采用

SAIF

的协同优化后,在布

局阶段插入的低驱动能力单元数量与传统布局相比

大幅增加,这是导致时序恶化的主要原因。而在

SAIF

.. All Rights Reserved.

-80-

天津工业大学学报第

40

协同优化的基础上进行动态功耗优化后,低驱动单元

的使用数量相比采用

SAIF

协同优化明显降低。低驱

动单元的使用数量降低,能使布局阶段整体的占有率

降低,

3.3

布局后结果对比

一定程度上能够遏制时序的恶化。

1

为布局阶段

2

种组合优化方式与传统布局

的结果对比。

1

布局后结果对比

Tab.1Comparisonofresultsafterplacement

分类传统布局

SAIF

协同优化

SAIF

动态功耗优化

协同优化

+

建立时间

WNS/ns-6.021-2.120-0.880

建立时间

TNS/ns-373-518.240-325.910

违例条数

NUM0

短路功耗

/mW17.56016.66015.910

开关功耗

/mW52.66049.95047.710

泄漏功耗

/mW0.0120.0120.011

总功耗

/mW70.24066.62063.640

功耗削减

/%5.29.4

由表

1

可以看出,采用基于

SAIF

的协同优化和

动态功耗优化

9.4

-0.880

%

,建立时序

Dynamic

setup

最差违例值从

组合的总功耗比原来削减了

-6.021

优化为

时,时序也得到了优化,

。由此说明,在布局阶段功耗得到了优化的同

这种优化方案在布局阶段起

到的效果最好。

4

时钟树综合阶段的低功耗设计

40

时钟网络功耗通常能占到芯片总功耗的

30%~

内容

%

,所以时钟树设计往往是低功耗物理设计的重要

[11]

。时钟树综合(

CTS

)就是建立一个合理的时钟网

络,使时钟信号传递到每一个时序器件的延迟尽可

能一致,做到时钟树的尽可能平齐。为了实现时钟结

构的平齐,工具会插入大量缓冲器(

buffer

)和反相器

inverter

)进行平衡,大量

buffer

inverter

的插入会导

致功耗的恶化

[12]

,所以低功耗的时钟树设计往往以降

低缓冲单元的插入为目标。缓冲器在

CTS

阶段主要起

到两种作用:一种是为了平衡延迟;另一种是为了驱

动负载

[13]

。所以,本文在布局阶段的低功耗设计基础

上,在减少平衡缓冲器和驱动缓冲器两个方向上进行

低功耗的时钟树设计。

4.1

传统时钟树设计方法

传统时钟树设计方法有:

1

)分析时钟结构,设计合理的时钟树方案

[14]

2

)根据时钟树方案,编写时钟树设计规范文件

clockspec

),包括定义时钟根节点(

rootpin

)和一些需

要特殊处理的时钟节点,设置合理的时钟偏斜

skew

[15]

Innovus

转换时间

clock

CCOPT

transition

引擎会根据该文件进行时钟

)、最大扇出值(

maxfanout

树构建。

3

)指定缓冲单元、反相器和门控时钟单元的使

用类型和大小。缓冲单元和反相器一般避免使用过大

或过小尺寸的单元,多使用时钟缓冲器(

CLKBUF

)和

反相器(

CLKINV

),这种类型单元的上升渡越时间和

下降渡越时间基本一致,带来的延迟误差更小。门控

时钟则尽可能使用小尺寸单元。

4

)设定时钟树的布线层,一般选用电阻电容较

小的金属层,

cut

)布线

为了提高可靠性,多使用双孔(

double

[16]

les

扰(

crosstalk

,目的是为了减小时钟树电阻和耦合电容,

5

)设定时钟布线的非默认规则(

non-defaultru-

低功耗设计方法

)的影响

[17]

避免串

4.2

本文在

Innovus

CCOPT

引擎下,结合传统时钟

树设计方法,采用一种新的低功耗时钟树设计方案,

在布局之前将一些关键路径上的时钟单元进行手动

摆放,在降低功耗的同时优化时序。本文采用了如下

3

种方法:

1

)时钟相关模块设置

region

的物理约束,将其

与时钟振荡器进行邻近配置,目的是为了尽量减小平

衡缓冲器的插入。

region

的物理约束能将模块内的标

准单元约束在指定的区域内进行摆放,设置合理的模

块利用率,让非该模块内的标准单元也能在该区域进

行摆放,不至于影响整体的布局效果

[18]

。表

2

为进行配

置的模块。

2

物理约束的设置对象

Tab.2Settingsobjectsforphysicalconstraint

模块名配置内容

cspf/sysss/syspf/clkmc/nc_osc

将该噪声滤波器模块配置在主振荡

器输出附近

cspf/sysss/syspf/clkmc/nc_osc32k

将该噪声滤波器模块配置在子振荡

器输出附近

cspf/sysss/syspf/cpg

pericore/mp200/rtc

将该模块配置在子振荡器输出附近

将该模块配置在振荡器输出附近

2

)在时钟模块与邻近配置的前提下,依次进行

部分时钟单元的手动插入,确保距离时钟振荡器足够

近,尽可能地减小平衡缓冲器的插入。根据时钟结构,

在时钟根节点进行分级。从时钟源(主振荡器

HOCO

等)

.. All Rights Reserved.

3

期陈力颖,等:基于

55nm

工艺的

MCU

低功耗物理设计

-81-

CTS

CPG

模块内的时钟选择器的路径定义为第

0

leaf

CTS

电路;从时钟选择器到时钟分频电路定义为第

电路;从时钟分频电路到时钟叶节点(

1

前将第

)定义为第

1

级起点的时钟选择器和第

2

CTS

电路。采用的方法是在布局之

clock

2

级起点的时钟

分频电路单元,用命令从振荡器旁开始依次进行提前

摆放,再以

DEF

格式文件将其输出,在布局前进行读

入,提高设计的可重复性。时钟单元手动摆放的命令

如下:

562.30

placeInstancecspf/

3

)对第

458.40-fixed

sysp/vc_and_stop_selclkm4stp

1

CTS

电路的部分扇出(

fanout

)进行

手动分割,减少多余驱动缓冲器的插入,避免时钟结

构的冗余。与门

CTS

selclk

后原本有

21

个扇出,在传统

冲器的插入。

设计下,工具进行了多余分割,

CTS

阶段设定的最大扇出

导致了

max

6

个多余缓

fanout

24

,发现一个

buffer

完全可以驱动

21

个扇出,所以

者重新进行分割。

touch

CTS

属性,

之前进行手动分割,

确保

CTS

阶段工具不会插入多余

并对相应时钟线设置

buffer

don忆t

4.3

时钟树综合结果对比

时钟树的低功耗设计是将部分时钟单元进行手

动摆放以优化时钟结构,避免性能冗余

[19]

,尽可能少地

插入缓冲单元和反相器,来达到降低时钟功耗和优化

时序的目的

[20]

。表

3

为时钟结构上插入的缓冲器和反

相器数量对比,由表

3

可知,与传统

CTS

相比,手动配

CTS

时时钟树上插入的缓冲器单元和反相器数量

分别降低了

17.2%

22.2%

3

时钟缓冲器优化结果对比

Tab.3Comparisonofclockbufferoptimizationresults

分类时钟树缓冲器数量时钟树反相器数量

传统

CTS62754.0

手配

CTS51942.0

改善率

/%17.222.2

4

为本文采用的时钟树低功耗设计与传统

CTS

的功耗对比。由表

4

可知,通过时钟单元的手动配置,

时钟功耗下降为原来的

73.1%

,芯片总功耗下降为原

来的

86.2%

,达到了明显降低功耗的效果。

5

、表

6

为本文在时钟树综合后进行一遍时序

优化后的时序结果对比。

14

到,

,总的违例值从

由表

5

可以看到,

setup

的违例条数从

112

降为

hold

的违例条数从

-38.793

445

降为

降为

-1.154

177

,总的违例值从

。由表

6

可以看

4

功耗结果对比

Tab.4Comparisonofpowerconsumption

分类功耗分类

短路功耗

传统

CTS

时钟功耗

mW

/

开关功耗

/

泄漏功耗

/

分类总功

/mW

总功耗

031.360

mW

0.006

mW

手配

CTS

时钟功耗

21.860

8.070

总功耗

0

65.5000.015

39.450

18.830

5.89022.910

56.430

0.004

87.450

0.013

28.820

75.340

5

建立时间结果对比

Tab.5Comparisonofsetuptiming

分类

建立时间(

setup

传统

CTS

WNS/ns

-0.697-38.793

TNS/nsNUM/

112

手配

CTS-0.174-1.154014

6

保持时间结果对比

Tab.6Comparisonofholdtiming

分类

保持时间(

hold

传统

CTS

WNS/ns

-1.275-45.360

TNS/nsNUM/

445

手配

CTS-0.2200-3.420177

-45.36

序的优化效果明显,

降为

-3.42

。由此说明,

违例值的改善大大减轻了后续的

本文的时钟树设计对时

逻辑优化,缩短了设计周期,使整体的占有率降低,从

而降低了整体功耗。

5

结论

MCU

本设计借助新一代布局布线工具

Innovus

,在传统

SAIF

物理设计流程基础上进行功耗优化,包括基于

基础上,

文件协同优化的低功耗布局设计,

进行手动配置部分时钟单元的低功耗时钟树

并在布局结果

设计。本文通过在布局和时钟树综合

2

个阶段进行低

功耗设计,能够达到优化功耗和时序的效果,缩短了

设计周期,结果表明:

1

)在布局阶段,芯片功耗降为原来的

90.6%

,建

立时间的最差违例值由

-6.021

优化为

-0.880

2

)时钟树综合阶段,功耗优化的效果明显,时钟

功耗降为原来的73.1%。时序得到改善,建立时间违例

的总条数降为原来的

3.0%

,保持时间的违例总条数降为原来的

12.5%

,总违例值降为原来的

例值降为原来的

7.5%

39.8%

,总违

参考文献:

[1]

戈喆,王志鸿,厉媛玥

.

基于

Innovus

的低功耗物理设计

[J].

.. All Rights Reserved.

-82-

天津工业大学学报第

40

电子技术应用,

2016

42

8

):

21-24.

GE

Innovus

Z

WANGZH

erphysicaldesignin

(8):21-24

[J].

(in

Application

Chinese).

ofElectronicTechnique,2016,42

[2]

王欣宇

用,

WANG

2019

.

一种低功耗

36

5

):

MCU

芯片的设计方法

[J].

集成电路应

ofIC

2019

XY.

A

36

design

16-18.

5

):

16-18

oflow

power

inChinese

MCU

.

chip[J].Applications

[3]

67.

高效时钟树设计

陈力颖,翦彦龙,

[J].

吕英杰

天津工业大学学报,

.

基于

28nm

工艺的

2019

CCOpt

38

2

):

技术

62-

CHEN

byCCOpt

LY

technology

JIANYL

for

LYU

28nm

YJ.

process

Design

[J].

ofefficient

Journal

clock

ofTianjin

tree

[4]

Polytechnic

戈喆,付娟,

University

王沛东,

2019

.

低功耗时钟树设计的结构分析和

38

2

):

62-67

inChinese

.

优化

GEZ

[J].

FU

中国集成电路,

J

WANG

power

PD

2017

clock

et

al.

26

tree

Clock

9

):

30-34.

[J].

structure

ChinaIntegrated

analysis

Cir原

and

[5]

朱伟弟

cuit

optimization

2017

“漫谈”

.

26

for

low

MCU

9

):

30-34

物联网应用场景

inChinese

[J].

.

统应用,

2019

19

4

):

86-87.

单片机与嵌入式系

ZHU

nario[J].

WD.

Microcontrollers

"Ramble"MCU

&Embedded

Internetof

Systems

thingsapplication

2019

19

sce原

86-87

inChinese

.

4

):

[6]

87-90.

理设计方法与实现

谢旦杰,魏敬和,于宗光

[J].

微电子学与计算机,

.

一种基于

CPF

格式的低功耗物

2019

36

3

):

XIE

method

DJ

and

WEI

implementation

JH

YUZ

&Computer

based

G.A

2019

on

low

common

-powerphysicaldesign

36

3

):

power

87-90

format[J].

inChi原

[7]

nese

Microelectronics

杨紫薇,

.

朱致玖,袁甲,等

.

一种针对低功耗

MCU

关断模

26-30.

式的功耗优化方法

[J].

微电子学与计算机,

2017

34

6

):

YANG

tionofthe

ZW

off

ZHU

mode

Z

of

J

YUANJ

andoptimiza原

田素雷,张勇,张磊,

low-power

6

.

基于门控时钟技术的

MCU

inChinese

[J].Microelectronics

&

[8]

Computer

2017

3426-30.

设计

[J].

无线电工程,

2010

40

5

):

57-60.

IC

低功耗

TIAN

clocktechnology

SL

ZHANGY

ZHANGL

ationofgating

[9]

2010

Susan

40

Hong.

5

):

MCU

57-60

inIC

产品的低功耗技术

in

design

Chinese

[J].

Radio

.

EngineeringofChina

2016

33

3

):

30-32.

[J].

集成电路应用,

HONG

tionsof

S.

IC

Low

2016

power

33

technology

3

):

30-32

of

in

MCU

Chinese

products[J].

Applica原

[10]

千路,

合[J].半导体技术,

林平分

.ASIC

2008

后端设计中的时钟偏移以及时钟树综

QIANL,

skew

33(6

and

):527-529.

SIC

6

):

backend

527-529

design

inChinese

[J].Semiconductor

clock

.

Technology

treesynthesis

2008

in

A原

33

[11]

刘慧君,

钟树综合方案

谢亮,

[J].

金湘亮

微电子学,

.

一种实现时序快速有效收敛的时

LIUHJ

XIEL

JINXL.A

2017

clock

tree

47

5

synthesis

):

670-673.

fastandeffectiveclosureoftiming[J].Microelectronics

scheme

2017

for

[12]

祝雪菲,

47

5

):

670-673

张万荣,

in

万培元,

Chinese

.

的方法

[J].

微电子学,

2015

45

.

一种有效实现

4

):

474-478

483.

IC

时序收敛

ZHUXF

ZHANGWR

WANPY

dforeffi原

[13]

邓尧之,

2015

cient

timing

45

万培元,

4

):

convergence

474-478

刘世勋,

483

in

IC

.

in

design

一种高效时钟树综合实现方

Chinese

[J].

.

Microelectronics

DENG

[J].

半导体技术,

YZ

WANP

2012

Y

LIU

37

S

3

X

169-171

179.

ofefficient

clock

3

):

169-171

treesynthesis

179

[J].

inChinese

Semiconductor

.

Technology

2012

37

[14]EWETZ

tiontoclock

R

KOH

treesynthesis

[J].

clock

Integration

scheduling

2017

and

an

56

applica原

[15]

127.

115-

TENACE

body

V

MIRYALAS

CALIMERAA

-based

538.

pensation

-bias

[J].

assignment

Microelectronics

fordynamic

Journal

thermal

,2014

clock

,45

-skew

(5):530-

com原

[16]KIM

forlow

J

power[J].

ry

Integration

optimization

2017

56

of

86-95.

bufferedclocktrees

[17]SITIK

clocks[J].

C

TASKIN

Integration

B.

Iterative

2014

47

skew

3

):

minimization

356-364.

forlowswing

[18]

tegrity

EUDES

[19]

Theory

through

T

RAVELO

JOOD

and

J

KIM

Applications

clockH-tree[J].

is

2013

buffer

International

ofmulti-gigabits

41

polarity

5

):

535-549.

Journal

signal

ofCircuit

in原

usefulskewconstraints[J].Integration

2017

assignment

57

52-61.

under

[20]

Integration

mitigating

PARKSD

on-package

KIMTW.

2014

47

4

variation

Edgelayer

476-486.

in3D

embedding

clocktree

algorithm

synthesis[J].

for

):

本文引文格式:

陈力颖,罗奎,王浩,等

.

基于

55nm

工艺的

MCU

低功耗物

CHEN

理设计

[J].

天津工业大学学报,

2021

40

3

):

77-82.

sign

University

of

L

MCU

Y

LUO

2021

based

K

WANG

40

on

3

55

H

erphysicalde原

77-82

nmprocess[J].

inChinese

Journal

.

ofTiangong

.. All Rights Reserved.

2024年4月15日发(作者:徐笑旋)

40

卷第

3

圆园21

6

天津工业大学学报

允韵哉砸晕粤蕴韵云栽陨粤晕GONG哉晕陨灾耘砸杂陨栽再

Vol.40No.3

June2021

DOI

10.3969/.1671-024x.2021.03.012

基于

55nm

工艺的

MCU

低功耗物理设计

2222

陈力颖

1

,罗奎

1

,王浩

1

,刘宏伟

1

,吕英杰

3

1.

天津工业大学电子与信息工程学院,天津

300387

2.

天津工业大学天津市光电检测技术与系统重点实验室,

天津

300387

;天津

300450

3.

天津鹏翔华夏科技有限公司,

摘要:为了降低芯片的功耗,提高芯片的性能和可靠性,在传统数字芯片物理设计流程基础上,提出一种新的低

功耗物理设计方法,包括布局(

Placement

)阶段采用

SAIF

文件进行低功耗的协同优化,并在布局结果基础

上,通过手动配置时钟单元摆放来减小缓冲单元插入的方式进行低功耗的时钟树设计。结果表明:通过新

的低功耗设计可以大幅改善芯片功耗,在布局阶段,芯片功耗降为原来的

90.6%

,建立时间的最差违例值

-6.021

降为

-0.880

;时钟树综合(

clocktreesynthesis

,阶段,功耗优化效果显著,时钟网络功耗降为

CTS

原来的

73.1%

,总功耗降为原来的

86.2%

;时序得到改善,建立时间的违例总条数降为原来的

12.5%

,总违

例值降为原来的

3.0%

,保持时间的违例总条数降为原来的

39.8%

,总违例值降为原来的

7.5%

关键词:数字集成电路;布局;时钟树综合;低功耗;协同优化

TN492

中图分类号:

A

文献标志码:

园3原园园77原06

文章编号:

员远苑员原园圆源载

圆园21

LowpowerphysicaldesignofMCUbasedon55nmprocess

TiangongUniversity

Tianjin300387

China

nKeyLabo原

ofElectronicsandInformationEngineering

ratoryofOptoelectronicDetectionTechnologyandSystems

TiangongUniversity

Tianjin300387

China

n

PengxiangHuaxiaTechnologyCo.

Ltd.

Tianjin300450

China

2222

.. All Rights Reserved.

CHENLi-ying

1

LUOKui

1

WANGHao

1

,,,

LIUHong-wei

1

LYUYing-jie

3

Abstract

Inordertoreducethepowerconsumptionofthechipandimprovetheperformanceandreliabilityofthechip袁a

newlowpowerphysicaldesignmethodisproposedbasedonthetraditionaldigitalchipphysicaldesignprocess袁

whichincludestheuseofSAIFfileintheplacementstageforlow-powercollaborativeoptimization袁andonthe

basisoftheplacementresults袁thedesignoflow-powerclocktreeiscarriedoutbymanuallyconfiguringthe

ultsshowthatthechippowerconsumptioncanbe

reducedto90.6%袁andtheworstviolationvalueofsetupisreducedfrom-6.021to-0.880曰intheclocktree

synthesisstage袁thepowerconsumptionoptimizationeffectissignificant袁thepowerconsumptionofclocknet鄄

ofholdviolationisreducedto39.8%andthetotalviolationvalueisreducedto7.5%.

greatlyimprovedthroughthenewlowpowerdesign院inthestageofplacement袁thechippowerconsumptionis

workisreducedto73.1%袁andthetotalpowerconsumptionisreduceto86.2%.Thetimeisimproved袁thetotal

numberofsetupviolationsisreducedto12.5%andthetotalviolationvalueisreducedto3.0%袁thetotalnumber

CTS

);

lowerpower

collaborativeoptimizationKeywords

digitalintegratedcircuit

placement

clocktreesynthesis

随着集成电路制造工艺水平的提高,芯片的集成

度越来越高,在芯片性能大幅提升、面积持续缩小的

同时,低功耗设计成为无法回避的难题

[1]

。过高的功耗

会降低芯片的性能和可靠性,额外增加芯片的封装成

本,所以低功耗设计一直是芯片设计的主要方向

[2]

。在

2020-06-08

收稿日期:

数字芯片的低功耗物理设计中,时钟信号是整个芯片

中翻转频率最高、驱动负载最大和传输距离最远的信

40%

。所以,时钟树设计是低功耗物理设计的主要方向

[3]

,时钟网络功耗通常能占到芯片总功耗的30%~

之一。好的时钟树设计是建立在合理的布局结果之上

基金项目:国家留学基金资助项目(

2

);天津市研究生科研创新项目(

2019YJSS019

通信作者:陈力颖(

1976

—),男,博士,副教授,主要研究方向为射频集成电路和数模混合集成电路设计。

E-mail

*****************

-78-

天津工业大学学报第

40

的,所以本文在布局和时钟树综合两个方面进行低功

耗设计,在布局阶段采用

SAIF

文件进行低功耗的协

同优化,并在布局结果基础上,通过手动干预时钟单

元摆放来减小缓冲单元插入的方式进行低功耗时钟

树设计

[4]

本文以一个应用于低功耗物联网(

IoT

)领域的

微控制单元

55nm

MCU

)设计为例。设计采用台积电(

TSMC

约为

300

工艺,

万门,包含

芯片面积为

89

2.13

个宏单元,最高频率为

mm伊2.22mm

,芯片规模

MHz

,借助新一代

Innovus

布局布线工具,在传统低功

120

耗物理设计流程基础上,研究新的低功耗设计方法。

1MCU

低功耗物理设计

随着数字集成电路工艺制程的演进,对芯片功耗

的要求越来越高

[5]

MCU

低功耗设计可以分为

3

个部

分:第

1

部分是系统与架构级的低功耗设计,比如多

电压域设计技术、电源关断技术、动态电压频率调节

DVFS

)技术等

[6]

;第

2

部分是

RTL

编码和逻辑综合的

低功耗设计,

3

部分是数字电路在物理设计阶段的低功耗设计,

比如门控时钟和操作数隔离技术等

[7]

;第

要是基于门级电路的低功耗设计,比如多阈值电压和

多沟道长度标准单元库的选用、多位寄存器优化、翻

转率负载协同优化、低功耗时钟树设计等

[8]

。本文主要

是在物理设计过程中进行低功耗的设计。完整的物理

设计流程从布图规划(

floorplan

)、布局(

placement

)、时

钟树综合(

clocktreesynthesis

)、布线(

route

)到静态时

序分析

veri-fication

static

)。时钟树功耗、

timinganalysis

处理器

)与物理验证

CPU

)和存储器功

physical

耗占了芯片总功耗的绝大部分

[9]

,而

CPU

功耗及存储

器功耗取决于芯片的整体布局,所以在布局和时钟树

综合阶段进行低功耗设计能最大程度地降低功耗。

数字电路的总功耗可表示为:

P

total

=

1

2

C

L

V

DD

2

伊T

r

+t

sc

V

DD

I

peak

伊T

r

+V

DD

I

leakage

1

式中:第

1

个乘积项为开关功耗,由电路翻转对外部

负载

C

L

充放电产生的功耗;第

2

个乘积项为短路功

耗,为电路

NMOS

PMOS

同时导通形成的短路电流

I

peak

产生的功耗,这两项为电路工作时产生的功耗,称

为动态功耗,动态功耗往往能占到芯片总功耗的

80%

左右;第

3

项为泄漏功耗,为晶体管的沟道、栅极、衬

底等非理想漏电流

I

T

leakage

产生的功耗,也称静态功耗;

r

为信号单位时间的翻转次数,称为翻转率(

toggle

rate

的静态概率,

);

t

sc

为短路电流的产生时间,其值取决于输入信号

静态概率也称信号的占空比。所以数字

电路功耗的计算跟电路的开关行为(

switchingactivity

有关,即信号的翻转率和静态概率,在低功耗的物理

设计中明确电路的开关行为是非常有必要的。

2

低功耗物理设计流程

低功耗设计需要在功耗和时序之间找到一个平

衡点,即在时序能够收敛的情况下,使功耗尽可能降

[10]

。在标准单元摆放和时钟树设计完成后,标准单元

的位置基本不会有大的改动,后续优化过程中,为了

不影响时序,一般不会大规模的修改时钟线,所以芯

片功耗一般不会有大的增加。本文在传统物理设计流

程基础上,重点在布局和时钟树综合阶段进行低功耗

设计。在布局阶段采用翻转率负载协同优化的设计方

法进行低功耗设计,并在布局之前将部分时钟单元进

行优先手动摆放;在布局结果基础上,通过手动干预

时钟单元摆放来降低缓冲单元插入的方法进行低功

耗的时钟树设计。图

1

为本文低功耗设计的流程,布

局前将

SAIF

文件读入,设置低功耗驱动命令,并进行

部分时钟单元的手动摆放,布局后结合传统时钟树设

计方法进行低功耗的时钟树设计。

Floorplan

数据

标准单元布局

读入(

GigaPlace

功耗驱动优化

布局后时序优化

设定

GigaOpt

SAIF

文件读入

时钟树规范文件

读入

包含时钟单元位置

信息

DEF

读入

时钟树综合

1

功耗优化流程

Fig.1Powerconsumptionoptimizationprocess

3

布局阶段的低功耗设计

3.1SAIF

协同优化

布局阶段主要进行标准单元的摆放,本文在布局

阶段采用

SAIF

翻转率协同优化的方式进行低功耗的

设计。

SAIF

switchingactivityinterchangeformat

)文件

是一种记录电路开关行为的内部交换格式文件,记录

了在某种工作场景下、一段时间内互连线和单元引脚

上信号静态概率和翻转率的情况,由综合后经仿真得

.. All Rights Reserved.

3

期陈力颖,等:基于

55nm

工艺的

MCU

低功耗物理设计

-79-

到。开关行为(

switchingactivity

)指的是设计中翻转率

和静态概率的情况。本文在布局阶段利用

Innovus

的功

耗驱动优化命令与

SAIF

文件进行低功耗的协同优化,

SAIF

read_activity_file

文件在标准单元布局之前通过如下命令读入:

tbench/u_mcu/u_sys/verify_env/dut

-formatSAIF$inputSAIF-scope

并在布局阶段进行如下的功耗驱动优化设置:

setOptMode

setPlaceMode

-powerEfforthigh

setPlaceMode

-activity_power_driven

SAIF

文件主要能起到两个效果:

-activity_power_driven_effort

true

一是提高功耗计

high

算的准确性,得到更为准确的功耗值。不管是动态功

耗还是静态功耗的计算都与设计中信号翻转率和静

态概率情况密切相关。二是结合功耗驱动命令进行功

耗的协同优化,布局布线工具会结合

SAIF

文件中开

关行为的情况,将翻转率较高的时序单元进行聚拢配

置,减小时序单元之间的配线长度,达到减小翻转功

耗的目的。在布局前读入

SAIF

文件要保证

SAIF

中标

注的开关行为覆盖率(

annotationcoverage

)达到

90%

上才能达到良好效果,通过查看布局阶段的

log

文件,

本设计中开关行为的覆盖率达到了

98.5%

,满足要求。

2

SAIF

协同优化配置前后分布,图中黄色

方框内为

CPU

模块的分布。由图

2

可以明显看出,采

SAIF

协同优化后,

CPU

内核模块翻转率较高的

D

触发器相比原来聚拢效果明显,进而缩短了他们之间

的布线长度,可以有效降低

CPU

功耗,同时也有利于

时序的收敛。结果表明,采用

SAIF

文件进行协同优化

的方案,

3.2SAIF

功耗比原来降低

协同优化

+

动态功耗优化

5.2%

降低功耗的作用,

SAIF

文件与低功耗命令的协同优化虽然能起到

但功耗优先的优化模式促使布局布

线工具大量的使用了小尺寸单元进行时序优化,因为

小尺寸优化单元的驱动能力较低,布局布线工具会插

入大量的低驱动能力单元进行优化,使总体占有率增

高,并最终导致时序的恶化,特别是建立时间总违例

值变差。为了减小低驱动单元的大量使用,在布局阶

段进行动态功耗优化的设定,让布局布线工具在进行

布局优化时只进行动态功耗的优化,进行如下命令的

设置:

setOptMode

3

为两种优化方法和传统布局在插入的优化

-leakageToDynamicRatio0

单元数量上的对比,优化单元包括缓冲器(

buffer

)和

反相器

X90

之间。

inverter

),优化单元的驱动能力处于

X02

a

)配置前

(b)配置后

2

配置前后

CPU

模块分布

Fig.2DistributionofCPUmodulebeforeandafter

configuration

120

100

000

80

000

传统布局

60

000

SAIF

SAIF

协同优化

动态功耗优化

协同优化+

40

000

20

000

000

0

X02X06

优化单元驱动能力大小

X16X30X60X90

3

优化后驱动单元使用数量对比

Fig.3Comparisonofdrivingcellnumberafter

optimization

由图

3

可以看出,采用

SAIF

的协同优化后,在布

局阶段插入的低驱动能力单元数量与传统布局相比

大幅增加,这是导致时序恶化的主要原因。而在

SAIF

.. All Rights Reserved.

-80-

天津工业大学学报第

40

协同优化的基础上进行动态功耗优化后,低驱动单元

的使用数量相比采用

SAIF

协同优化明显降低。低驱

动单元的使用数量降低,能使布局阶段整体的占有率

降低,

3.3

布局后结果对比

一定程度上能够遏制时序的恶化。

1

为布局阶段

2

种组合优化方式与传统布局

的结果对比。

1

布局后结果对比

Tab.1Comparisonofresultsafterplacement

分类传统布局

SAIF

协同优化

SAIF

动态功耗优化

协同优化

+

建立时间

WNS/ns-6.021-2.120-0.880

建立时间

TNS/ns-373-518.240-325.910

违例条数

NUM0

短路功耗

/mW17.56016.66015.910

开关功耗

/mW52.66049.95047.710

泄漏功耗

/mW0.0120.0120.011

总功耗

/mW70.24066.62063.640

功耗削减

/%5.29.4

由表

1

可以看出,采用基于

SAIF

的协同优化和

动态功耗优化

9.4

-0.880

%

,建立时序

Dynamic

setup

最差违例值从

组合的总功耗比原来削减了

-6.021

优化为

时,时序也得到了优化,

。由此说明,在布局阶段功耗得到了优化的同

这种优化方案在布局阶段起

到的效果最好。

4

时钟树综合阶段的低功耗设计

40

时钟网络功耗通常能占到芯片总功耗的

30%~

内容

%

,所以时钟树设计往往是低功耗物理设计的重要

[11]

。时钟树综合(

CTS

)就是建立一个合理的时钟网

络,使时钟信号传递到每一个时序器件的延迟尽可

能一致,做到时钟树的尽可能平齐。为了实现时钟结

构的平齐,工具会插入大量缓冲器(

buffer

)和反相器

inverter

)进行平衡,大量

buffer

inverter

的插入会导

致功耗的恶化

[12]

,所以低功耗的时钟树设计往往以降

低缓冲单元的插入为目标。缓冲器在

CTS

阶段主要起

到两种作用:一种是为了平衡延迟;另一种是为了驱

动负载

[13]

。所以,本文在布局阶段的低功耗设计基础

上,在减少平衡缓冲器和驱动缓冲器两个方向上进行

低功耗的时钟树设计。

4.1

传统时钟树设计方法

传统时钟树设计方法有:

1

)分析时钟结构,设计合理的时钟树方案

[14]

2

)根据时钟树方案,编写时钟树设计规范文件

clockspec

),包括定义时钟根节点(

rootpin

)和一些需

要特殊处理的时钟节点,设置合理的时钟偏斜

skew

[15]

Innovus

转换时间

clock

CCOPT

transition

引擎会根据该文件进行时钟

)、最大扇出值(

maxfanout

树构建。

3

)指定缓冲单元、反相器和门控时钟单元的使

用类型和大小。缓冲单元和反相器一般避免使用过大

或过小尺寸的单元,多使用时钟缓冲器(

CLKBUF

)和

反相器(

CLKINV

),这种类型单元的上升渡越时间和

下降渡越时间基本一致,带来的延迟误差更小。门控

时钟则尽可能使用小尺寸单元。

4

)设定时钟树的布线层,一般选用电阻电容较

小的金属层,

cut

)布线

为了提高可靠性,多使用双孔(

double

[16]

les

扰(

crosstalk

,目的是为了减小时钟树电阻和耦合电容,

5

)设定时钟布线的非默认规则(

non-defaultru-

低功耗设计方法

)的影响

[17]

避免串

4.2

本文在

Innovus

CCOPT

引擎下,结合传统时钟

树设计方法,采用一种新的低功耗时钟树设计方案,

在布局之前将一些关键路径上的时钟单元进行手动

摆放,在降低功耗的同时优化时序。本文采用了如下

3

种方法:

1

)时钟相关模块设置

region

的物理约束,将其

与时钟振荡器进行邻近配置,目的是为了尽量减小平

衡缓冲器的插入。

region

的物理约束能将模块内的标

准单元约束在指定的区域内进行摆放,设置合理的模

块利用率,让非该模块内的标准单元也能在该区域进

行摆放,不至于影响整体的布局效果

[18]

。表

2

为进行配

置的模块。

2

物理约束的设置对象

Tab.2Settingsobjectsforphysicalconstraint

模块名配置内容

cspf/sysss/syspf/clkmc/nc_osc

将该噪声滤波器模块配置在主振荡

器输出附近

cspf/sysss/syspf/clkmc/nc_osc32k

将该噪声滤波器模块配置在子振荡

器输出附近

cspf/sysss/syspf/cpg

pericore/mp200/rtc

将该模块配置在子振荡器输出附近

将该模块配置在振荡器输出附近

2

)在时钟模块与邻近配置的前提下,依次进行

部分时钟单元的手动插入,确保距离时钟振荡器足够

近,尽可能地减小平衡缓冲器的插入。根据时钟结构,

在时钟根节点进行分级。从时钟源(主振荡器

HOCO

等)

.. All Rights Reserved.

3

期陈力颖,等:基于

55nm

工艺的

MCU

低功耗物理设计

-81-

CTS

CPG

模块内的时钟选择器的路径定义为第

0

leaf

CTS

电路;从时钟选择器到时钟分频电路定义为第

电路;从时钟分频电路到时钟叶节点(

1

前将第

)定义为第

1

级起点的时钟选择器和第

2

CTS

电路。采用的方法是在布局之

clock

2

级起点的时钟

分频电路单元,用命令从振荡器旁开始依次进行提前

摆放,再以

DEF

格式文件将其输出,在布局前进行读

入,提高设计的可重复性。时钟单元手动摆放的命令

如下:

562.30

placeInstancecspf/

3

)对第

458.40-fixed

sysp/vc_and_stop_selclkm4stp

1

CTS

电路的部分扇出(

fanout

)进行

手动分割,减少多余驱动缓冲器的插入,避免时钟结

构的冗余。与门

CTS

selclk

后原本有

21

个扇出,在传统

冲器的插入。

设计下,工具进行了多余分割,

CTS

阶段设定的最大扇出

导致了

max

6

个多余缓

fanout

24

,发现一个

buffer

完全可以驱动

21

个扇出,所以

者重新进行分割。

touch

CTS

属性,

之前进行手动分割,

确保

CTS

阶段工具不会插入多余

并对相应时钟线设置

buffer

don忆t

4.3

时钟树综合结果对比

时钟树的低功耗设计是将部分时钟单元进行手

动摆放以优化时钟结构,避免性能冗余

[19]

,尽可能少地

插入缓冲单元和反相器,来达到降低时钟功耗和优化

时序的目的

[20]

。表

3

为时钟结构上插入的缓冲器和反

相器数量对比,由表

3

可知,与传统

CTS

相比,手动配

CTS

时时钟树上插入的缓冲器单元和反相器数量

分别降低了

17.2%

22.2%

3

时钟缓冲器优化结果对比

Tab.3Comparisonofclockbufferoptimizationresults

分类时钟树缓冲器数量时钟树反相器数量

传统

CTS62754.0

手配

CTS51942.0

改善率

/%17.222.2

4

为本文采用的时钟树低功耗设计与传统

CTS

的功耗对比。由表

4

可知,通过时钟单元的手动配置,

时钟功耗下降为原来的

73.1%

,芯片总功耗下降为原

来的

86.2%

,达到了明显降低功耗的效果。

5

、表

6

为本文在时钟树综合后进行一遍时序

优化后的时序结果对比。

14

到,

,总的违例值从

由表

5

可以看到,

setup

的违例条数从

112

降为

hold

的违例条数从

-38.793

445

降为

降为

-1.154

177

,总的违例值从

。由表

6

可以看

4

功耗结果对比

Tab.4Comparisonofpowerconsumption

分类功耗分类

短路功耗

传统

CTS

时钟功耗

mW

/

开关功耗

/

泄漏功耗

/

分类总功

/mW

总功耗

031.360

mW

0.006

mW

手配

CTS

时钟功耗

21.860

8.070

总功耗

0

65.5000.015

39.450

18.830

5.89022.910

56.430

0.004

87.450

0.013

28.820

75.340

5

建立时间结果对比

Tab.5Comparisonofsetuptiming

分类

建立时间(

setup

传统

CTS

WNS/ns

-0.697-38.793

TNS/nsNUM/

112

手配

CTS-0.174-1.154014

6

保持时间结果对比

Tab.6Comparisonofholdtiming

分类

保持时间(

hold

传统

CTS

WNS/ns

-1.275-45.360

TNS/nsNUM/

445

手配

CTS-0.2200-3.420177

-45.36

序的优化效果明显,

降为

-3.42

。由此说明,

违例值的改善大大减轻了后续的

本文的时钟树设计对时

逻辑优化,缩短了设计周期,使整体的占有率降低,从

而降低了整体功耗。

5

结论

MCU

本设计借助新一代布局布线工具

Innovus

,在传统

SAIF

物理设计流程基础上进行功耗优化,包括基于

基础上,

文件协同优化的低功耗布局设计,

进行手动配置部分时钟单元的低功耗时钟树

并在布局结果

设计。本文通过在布局和时钟树综合

2

个阶段进行低

功耗设计,能够达到优化功耗和时序的效果,缩短了

设计周期,结果表明:

1

)在布局阶段,芯片功耗降为原来的

90.6%

,建

立时间的最差违例值由

-6.021

优化为

-0.880

2

)时钟树综合阶段,功耗优化的效果明显,时钟

功耗降为原来的73.1%。时序得到改善,建立时间违例

的总条数降为原来的

3.0%

,保持时间的违例总条数降为原来的

12.5%

,总违例值降为原来的

例值降为原来的

7.5%

39.8%

,总违

参考文献:

[1]

戈喆,王志鸿,厉媛玥

.

基于

Innovus

的低功耗物理设计

[J].

.. All Rights Reserved.

-82-

天津工业大学学报第

40

电子技术应用,

2016

42

8

):

21-24.

GE

Innovus

Z

WANGZH

erphysicaldesignin

(8):21-24

[J].

(in

Application

Chinese).

ofElectronicTechnique,2016,42

[2]

王欣宇

用,

WANG

2019

.

一种低功耗

36

5

):

MCU

芯片的设计方法

[J].

集成电路应

ofIC

2019

XY.

A

36

design

16-18.

5

):

16-18

oflow

power

inChinese

MCU

.

chip[J].Applications

[3]

67.

高效时钟树设计

陈力颖,翦彦龙,

[J].

吕英杰

天津工业大学学报,

.

基于

28nm

工艺的

2019

CCOpt

38

2

):

技术

62-

CHEN

byCCOpt

LY

technology

JIANYL

for

LYU

28nm

YJ.

process

Design

[J].

ofefficient

Journal

clock

ofTianjin

tree

[4]

Polytechnic

戈喆,付娟,

University

王沛东,

2019

.

低功耗时钟树设计的结构分析和

38

2

):

62-67

inChinese

.

优化

GEZ

[J].

FU

中国集成电路,

J

WANG

power

PD

2017

clock

et

al.

26

tree

Clock

9

):

30-34.

[J].

structure

ChinaIntegrated

analysis

Cir原

and

[5]

朱伟弟

cuit

optimization

2017

“漫谈”

.

26

for

low

MCU

9

):

30-34

物联网应用场景

inChinese

[J].

.

统应用,

2019

19

4

):

86-87.

单片机与嵌入式系

ZHU

nario[J].

WD.

Microcontrollers

"Ramble"MCU

&Embedded

Internetof

Systems

thingsapplication

2019

19

sce原

86-87

inChinese

.

4

):

[6]

87-90.

理设计方法与实现

谢旦杰,魏敬和,于宗光

[J].

微电子学与计算机,

.

一种基于

CPF

格式的低功耗物

2019

36

3

):

XIE

method

DJ

and

WEI

implementation

JH

YUZ

&Computer

based

G.A

2019

on

low

common

-powerphysicaldesign

36

3

):

power

87-90

format[J].

inChi原

[7]

nese

Microelectronics

杨紫薇,

.

朱致玖,袁甲,等

.

一种针对低功耗

MCU

关断模

26-30.

式的功耗优化方法

[J].

微电子学与计算机,

2017

34

6

):

YANG

tionofthe

ZW

off

ZHU

mode

Z

of

J

YUANJ

andoptimiza原

田素雷,张勇,张磊,

low-power

6

.

基于门控时钟技术的

MCU

inChinese

[J].Microelectronics

&

[8]

Computer

2017

3426-30.

设计

[J].

无线电工程,

2010

40

5

):

57-60.

IC

低功耗

TIAN

clocktechnology

SL

ZHANGY

ZHANGL

ationofgating

[9]

2010

Susan

40

Hong.

5

):

MCU

57-60

inIC

产品的低功耗技术

in

design

Chinese

[J].

Radio

.

EngineeringofChina

2016

33

3

):

30-32.

[J].

集成电路应用,

HONG

tionsof

S.

IC

Low

2016

power

33

technology

3

):

30-32

of

in

MCU

Chinese

products[J].

Applica原

[10]

千路,

合[J].半导体技术,

林平分

.ASIC

2008

后端设计中的时钟偏移以及时钟树综

QIANL,

skew

33(6

and

):527-529.

SIC

6

):

backend

527-529

design

inChinese

[J].Semiconductor

clock

.

Technology

treesynthesis

2008

in

A原

33

[11]

刘慧君,

钟树综合方案

谢亮,

[J].

金湘亮

微电子学,

.

一种实现时序快速有效收敛的时

LIUHJ

XIEL

JINXL.A

2017

clock

tree

47

5

synthesis

):

670-673.

fastandeffectiveclosureoftiming[J].Microelectronics

scheme

2017

for

[12]

祝雪菲,

47

5

):

670-673

张万荣,

in

万培元,

Chinese

.

的方法

[J].

微电子学,

2015

45

.

一种有效实现

4

):

474-478

483.

IC

时序收敛

ZHUXF

ZHANGWR

WANPY

dforeffi原

[13]

邓尧之,

2015

cient

timing

45

万培元,

4

):

convergence

474-478

刘世勋,

483

in

IC

.

in

design

一种高效时钟树综合实现方

Chinese

[J].

.

Microelectronics

DENG

[J].

半导体技术,

YZ

WANP

2012

Y

LIU

37

S

3

X

169-171

179.

ofefficient

clock

3

):

169-171

treesynthesis

179

[J].

inChinese

Semiconductor

.

Technology

2012

37

[14]EWETZ

tiontoclock

R

KOH

treesynthesis

[J].

clock

Integration

scheduling

2017

and

an

56

applica原

[15]

127.

115-

TENACE

body

V

MIRYALAS

CALIMERAA

-based

538.

pensation

-bias

[J].

assignment

Microelectronics

fordynamic

Journal

thermal

,2014

clock

,45

-skew

(5):530-

com原

[16]KIM

forlow

J

power[J].

ry

Integration

optimization

2017

56

of

86-95.

bufferedclocktrees

[17]SITIK

clocks[J].

C

TASKIN

Integration

B.

Iterative

2014

47

skew

3

):

minimization

356-364.

forlowswing

[18]

tegrity

EUDES

[19]

Theory

through

T

RAVELO

JOOD

and

J

KIM

Applications

clockH-tree[J].

is

2013

buffer

International

ofmulti-gigabits

41

polarity

5

):

535-549.

Journal

signal

ofCircuit

in原

usefulskewconstraints[J].Integration

2017

assignment

57

52-61.

under

[20]

Integration

mitigating

PARKSD

on-package

KIMTW.

2014

47

4

variation

Edgelayer

476-486.

in3D

embedding

clocktree

algorithm

synthesis[J].

for

):

本文引文格式:

陈力颖,罗奎,王浩,等

.

基于

55nm

工艺的

MCU

低功耗物

CHEN

理设计

[J].

天津工业大学学报,

2021

40

3

):

77-82.

sign

University

of

L

MCU

Y

LUO

2021

based

K

WANG

40

on

3

55

H

erphysicalde原

77-82

nmprocess[J].

inChinese

Journal

.

ofTiangong

.. All Rights Reserved.

发布评论

评论列表 (0)

  1. 暂无评论