CPU的处理技术有些-USB迷|专注于互联网分享

2024年5月26日发(作者：泥惜筠)

CPU的处理技术有些

CPU，被称为中央处理器，那么一定就是处理各种数据操作的，

那么，CPU处理那么庞大的数据，采用了哪些技术呢?下面是提供的

资料，一起来看一下吧。

同时多线程SimultaneousMultithreading，简称SMT。SMT可

通过复制处理器上的结构状态，让同一个处理器上的多个线程同步

执行并共享处理器的执行资源，可最大限度地实现宽发射、乱序的

超标量处理，提高处理器运算部件的利用率，缓和由于数据相关或

Cache未命中带来的访问内存延时。当没有多个线程可用时，SMT处

理器几乎和传统的宽发射超标量处理器一样。SMT最具吸引力的是

只需小规模改变处理器核心的设计，几乎不用增加额外的本钱就可

以显著地提升效能。多线程技术那么可以为高速的运算核心准备更

多的待处理数据，减少运算核心的闲置时间。这对于桌面低端系统

来说无疑十分具有吸引力。Intel从3.06GHzPentium4开始，局部

处理器将支持SMT技术。

多核心，也指单芯片多处理器(ChipMultiprocessors，简称

CMP)。CMP是由美国斯坦福大学提出的，其思想是将大规模并行处

理器中的SMP(对称多处理器)集成到同一芯片内，各个处理器并行

执行不同的进程。这种依靠多个CPU同时并行地运行程序是实现超

高速计算的一个重要方向，称为并行处理。与CMP比拟，SMT处理

器结构的灵活性比拟突出。但是，当半导体工艺进入0.18微米以

后，线延时已经超过了门延迟，要求微处理器的设计通过划分许多

规模更小、局部性更好的根本单元结构来进行。相比之下，由于

CMP结构已经被划分成多个处理器核来设计，每个核都比拟简单，

有利于优化设计，因此更有开展前途。IBM的Power4芯片和Sun的

MAJC5200芯片都采用了CMP结构。多核处理器可以在处理器内部共

享缓存，提高缓存利用率，同时简化多处理器系统设计的复杂度。

但这并不是说明，核心越多，性能越高，比方说16核的CPU就没有

8核的CPU运算速度快，因为核心太多，而不能合理进行分配，所

以导致运算速度减慢。在买电脑时请酌情选择。xx年下半年，

Intel和AMD的新型处理器也将融入CMP结构。新安腾处理器开发

代码为Montecito，采用双核心设计，拥有最少18MB片内缓存，采

取90nm工艺制造。它的每个单独的核心都拥有独立的L1，L2和

L3cache，包含大约10亿支晶体管。

SMP(SymmetricMulti-Processing)，对称多处理结构的简称，

是指在一个计算机上聚集了一组处理器(多CPU)，各CPU之间共享

内存子系统以及总线结构。在这种技术的支持下，一个效劳器系统

可以同时运行多个处理器，并共享内存和其他的主机资源。像双至

强，也就是所说的二路，这是在对称处理器系统中最常见的一种(至

强MP可以支持到四路，AMDOpteron可以支持1-8路)。也有少数是

16路的。但是一般来讲，SMP结构的机器可扩展性较差，很难做到

100个以上多处理器，常规的一般是8个到16个，不过这对于多数

的用户来说已经够用了。在高性能效劳器和工作站级主板架构中最

为常见，像UNIX效劳器可支持最多256个CPU的系统。

构建一套SMP系统的必要条件是：支持SMP的硬件包括主板和

CPU;支持SMP的系统平台，再就是支持SMP的应用软件。为了能够

使得SMP系统发挥高效的性能，操作系统必须支持SMP系统，如

WINNT、LINUX、以及UNIX等等32位操作系统。即能够进行多任务

和多线程处理。多任务是指操作系统能够在同一时间让不同的CPU

完成不同的任务;多线程是指操作系统能够使得不同的CPU并行的完

成同一个任务。

要组建SMP系统，对所选的CPU有很高的要求，首先、CPU内

部必须内置APIC(AdvancedProgrammableInterruptControllers)单

元。Intel多处理标准的核心就是高级可编程中断控制器

(AdvancedProgrammableInterruptControllers–APICs)的使用;再

次，相同的产品型号，同样类型的CPU核心，完全相同的运行频率;

最后，尽可能保持相同的产品序列编号，因为两个生产批次的CPU

作为双处理器运行的时候，有可能会发生一颗CPU负担过高，而另

一颗负担很少的情况，无法发挥最大性能，更糟糕的是可能导致死

机。

NUMA即非一致访问分布共享存储技术，它是由假设干通过高速

专用网络连接起来的独立节点构成的系统，各个节点可以是单个的

CPU或是SMP系统。在NUMA中，Cache的一致性有多种解决方案，

一般采用硬件技术实现对cache的一致性维护，通常需要操作系统

针对NUMA访存不一致的特性(本地内存和远端内存访存延迟和带宽

的不同)进行特殊优化以提高效率，或采用特殊软件编程方法提高效

率。NUMA系统的例子。这里有3个SMP模块用高速专用网络联起

来，组成一个节点，每个节点可以有12个CPU。像Sequent的系统

最多可以到达64个CPU甚至256个CPU。显然，这是在SMP的根底

上，再用NUMA的技术加以扩展，是这两种技术的结合。

乱序执行(out-of-orderexecution)，是指CPU允许将多条指令

不按程序规定的顺序分开发送给各相应电路单元处理的技术。这样

将根据个电路单元的状态和各指令能否提前执行的具体情况分析

后，将能提前执行的指令立即发送给相应电路单元执行，在这期间

不按规定顺序执行指令，然后由重新排列单元将各执行单元结果按

指令顺序重新排列。采用乱序执行技术的目的是为了使CPU内部电

路满负荷运转并相应提高了CPU的运行程序的速度。

(branch)指令进行运算时需要等待结果，一般无条件分枝只需

要按指令顺序执行，而条件分枝必须根据处理后的结果，再决定是

否按原先顺序进行。

许多应用程序拥有更为复杂的读取模式(几乎是随机地，特别是

当cachehit不可预测的时候)，并且没有有效地利用带宽。典型的

这类应用程序就是业务处理软件，即使拥有如乱序执行

(outoforderexecution)这样的CPU特性，也会受内存延迟的限制。

这样CPU必须得等到运算所需数据被除数装载完成才能执行指令(无

论这些数据CPUcache还是主内存系统)。当前低段系统的内存延迟

大约是120-150ns，而CPU速度那么到达了4GHz以上，一次单独的

内存请求可能会浪费200-300次CPU循环。即使在缓存命中率

(cachehitrate)到达99.9%的情况下，CPU也可能会花50%的时间来

等待内存请求的结束-比方因为内存延迟的缘故。

在处理器内部整合内存控制器，使得北桥芯片将变得不那么重

要，改变了处理器访问主存的方式，有助于提高带宽、降低内存延

时和提升处理器性制造工艺：Intel的I5可以到达28纳米，在将

来的CPU制造工艺可以到达22纳米。

2024年5月26日发(作者：泥惜筠)

CPU的处理技术有些

CPU，被称为中央处理器，那么一定就是处理各种数据操作的，

那么，CPU处理那么庞大的数据，采用了哪些技术呢?下面是提供的

资料，一起来看一下吧。

同时多线程SimultaneousMultithreading，简称SMT。SMT可

通过复制处理器上的结构状态，让同一个处理器上的多个线程同步

执行并共享处理器的执行资源，可最大限度地实现宽发射、乱序的

超标量处理，提高处理器运算部件的利用率，缓和由于数据相关或

Cache未命中带来的访问内存延时。当没有多个线程可用时，SMT处

理器几乎和传统的宽发射超标量处理器一样。SMT最具吸引力的是

只需小规模改变处理器核心的设计，几乎不用增加额外的本钱就可

以显著地提升效能。多线程技术那么可以为高速的运算核心准备更

多的待处理数据，减少运算核心的闲置时间。这对于桌面低端系统

来说无疑十分具有吸引力。Intel从3.06GHzPentium4开始，局部

处理器将支持SMT技术。

多核心，也指单芯片多处理器(ChipMultiprocessors，简称

CMP)。CMP是由美国斯坦福大学提出的，其思想是将大规模并行处

理器中的SMP(对称多处理器)集成到同一芯片内，各个处理器并行

执行不同的进程。这种依靠多个CPU同时并行地运行程序是实现超

高速计算的一个重要方向，称为并行处理。与CMP比拟，SMT处理

器结构的灵活性比拟突出。但是，当半导体工艺进入0.18微米以

后，线延时已经超过了门延迟，要求微处理器的设计通过划分许多

规模更小、局部性更好的根本单元结构来进行。相比之下，由于

CMP结构已经被划分成多个处理器核来设计，每个核都比拟简单，

有利于优化设计，因此更有开展前途。IBM的Power4芯片和Sun的

MAJC5200芯片都采用了CMP结构。多核处理器可以在处理器内部共

享缓存，提高缓存利用率，同时简化多处理器系统设计的复杂度。

但这并不是说明，核心越多，性能越高，比方说16核的CPU就没有

8核的CPU运算速度快，因为核心太多，而不能合理进行分配，所

以导致运算速度减慢。在买电脑时请酌情选择。xx年下半年，

Intel和AMD的新型处理器也将融入CMP结构。新安腾处理器开发

代码为Montecito，采用双核心设计，拥有最少18MB片内缓存，采

取90nm工艺制造。它的每个单独的核心都拥有独立的L1，L2和

L3cache，包含大约10亿支晶体管。

SMP(SymmetricMulti-Processing)，对称多处理结构的简称，

是指在一个计算机上聚集了一组处理器(多CPU)，各CPU之间共享

内存子系统以及总线结构。在这种技术的支持下，一个效劳器系统

可以同时运行多个处理器，并共享内存和其他的主机资源。像双至

强，也就是所说的二路，这是在对称处理器系统中最常见的一种(至

强MP可以支持到四路，AMDOpteron可以支持1-8路)。也有少数是

16路的。但是一般来讲，SMP结构的机器可扩展性较差，很难做到

100个以上多处理器，常规的一般是8个到16个，不过这对于多数

的用户来说已经够用了。在高性能效劳器和工作站级主板架构中最

为常见，像UNIX效劳器可支持最多256个CPU的系统。

构建一套SMP系统的必要条件是：支持SMP的硬件包括主板和

CPU;支持SMP的系统平台，再就是支持SMP的应用软件。为了能够

使得SMP系统发挥高效的性能，操作系统必须支持SMP系统，如

WINNT、LINUX、以及UNIX等等32位操作系统。即能够进行多任务

和多线程处理。多任务是指操作系统能够在同一时间让不同的CPU

完成不同的任务;多线程是指操作系统能够使得不同的CPU并行的完

成同一个任务。

要组建SMP系统，对所选的CPU有很高的要求，首先、CPU内

部必须内置APIC(AdvancedProgrammableInterruptControllers)单

元。Intel多处理标准的核心就是高级可编程中断控制器

(AdvancedProgrammableInterruptControllers–APICs)的使用;再

次，相同的产品型号，同样类型的CPU核心，完全相同的运行频率;

最后，尽可能保持相同的产品序列编号，因为两个生产批次的CPU

作为双处理器运行的时候，有可能会发生一颗CPU负担过高，而另

一颗负担很少的情况，无法发挥最大性能，更糟糕的是可能导致死

机。

NUMA即非一致访问分布共享存储技术，它是由假设干通过高速

专用网络连接起来的独立节点构成的系统，各个节点可以是单个的

CPU或是SMP系统。在NUMA中，Cache的一致性有多种解决方案，

一般采用硬件技术实现对cache的一致性维护，通常需要操作系统

针对NUMA访存不一致的特性(本地内存和远端内存访存延迟和带宽

的不同)进行特殊优化以提高效率，或采用特殊软件编程方法提高效

率。NUMA系统的例子。这里有3个SMP模块用高速专用网络联起

来，组成一个节点，每个节点可以有12个CPU。像Sequent的系统

最多可以到达64个CPU甚至256个CPU。显然，这是在SMP的根底

上，再用NUMA的技术加以扩展，是这两种技术的结合。

乱序执行(out-of-orderexecution)，是指CPU允许将多条指令

不按程序规定的顺序分开发送给各相应电路单元处理的技术。这样

将根据个电路单元的状态和各指令能否提前执行的具体情况分析

后，将能提前执行的指令立即发送给相应电路单元执行，在这期间

不按规定顺序执行指令，然后由重新排列单元将各执行单元结果按

指令顺序重新排列。采用乱序执行技术的目的是为了使CPU内部电

路满负荷运转并相应提高了CPU的运行程序的速度。

(branch)指令进行运算时需要等待结果，一般无条件分枝只需

要按指令顺序执行，而条件分枝必须根据处理后的结果，再决定是

否按原先顺序进行。

许多应用程序拥有更为复杂的读取模式(几乎是随机地，特别是

当cachehit不可预测的时候)，并且没有有效地利用带宽。典型的

这类应用程序就是业务处理软件，即使拥有如乱序执行

(outoforderexecution)这样的CPU特性，也会受内存延迟的限制。

这样CPU必须得等到运算所需数据被除数装载完成才能执行指令(无

论这些数据CPUcache还是主内存系统)。当前低段系统的内存延迟

大约是120-150ns，而CPU速度那么到达了4GHz以上，一次单独的

内存请求可能会浪费200-300次CPU循环。即使在缓存命中率

(cachehitrate)到达99.9%的情况下，CPU也可能会花50%的时间来

等待内存请求的结束-比方因为内存延迟的缘故。

在处理器内部整合内存控制器，使得北桥芯片将变得不那么重

要，改变了处理器访问主存的方式，有助于提高带宽、降低内存延

时和提升处理器性制造工艺：Intel的I5可以到达28纳米，在将

来的CPU制造工艺可以到达22纳米。

USB迷 | 专注于互联网分享

CPU的处理技术有些

与本文相关的文章

评论列表 (0)