最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

人工智能计算平台与存储器研究报告

IT圈 admin 32浏览 0评论

2024年1月21日发(作者:崔吉)

人工智能计算平台与存储器研究报告

在物联网、大数据和人工智能的推动下,从交通运输、医疗保健到零售和娱乐等众多行业将走上转型之路,我们将其统称为Al计算时代。在以前的计算时代,大型机/小型机、PC/服务器和智能手机/平板电脑均受益于摩尔定律的进步,伴随着2D微缩,产品的性能、功耗和面积/成本(也称为PPAC)得以同步提升。

虽然Al时代的各类应用正在蓬勃发展,但摩尔定律却放缓了脚步;因此,行业需要在2D微缩以外取得突破,以全新方式推动PPAC的提升。具体而言,我们需要新的计算架构、新材料、新结构(特别是节省面积的3D结构) ,以及用于芯片堆叠和异构设计的高级封装。人工智能时代的架构变化正在对逻辑和存储器产生影响,下图为人工智能时代推动半导体存储器发展的进程。

我通过对现在常见的人工智能计算平台:阿里云的AI开发平台-机器学习PAI,华为云的AI开发平台-ModelArts,百度云的飞桨,科大讯飞的AIUUI。通过对4个平台的人工智能先进代表的平台进行配置和特点的了解,其中仅有华为云对云计算服务器设备有明确配置参数,所以我将着重对华为云鲲鹏、昇腾等的云存储器的配置进行查询,了解其特点,并对现在存储器未来发展做出论述。

4个平台各有其优势,华为云依托华为强劲的科研能力,如今作为市场黑马,异军突起;而阿里云作为人工智能平台中其中布局较早,市场占有率较高;百度云的飞浆平台在自动驾驶等应用方面有较多经验,并且在多方面都有扩展应用;科大讯飞的AIUI是深耕20年的强劲智能语音开发平台,是国内乃至世界人工智能语音领域的领导。

1、人工智能计算平台

一、阿里云的AI发开平台

如下图所示,阿里云的PAI的业务架构分为五层:

基础设施层:包括CPU、GPU、FPGA及NPU。

计算引擎和容器服务层:包括MaxCompute、EMR、实时计算等计算引擎及容器服务ACK。

计算框架层:包括Alink、TensorFlow、PyTorch、Caffe、MapReduce、SQL及MPI等计算框架,用于执行分布式计算任务。

数据准备:PAI提供了智能标注,支持在多种场景下进行数据标注和数据集管理。

模型开发和训练:PAI提供了可视化建模PAI-Studio、交互式编程建模PAI-DSW、云原生深度学习训练平台PAI-DLC及端到端自动学习PAI-AutoLearning,满足不同的建模需求。

模型部署:PAI提供了云原生在线推理服务平台PAI-EAS和模型推理加速工具PAI-Blade,帮助您快速地将模型部署为服务。同时,PAI提供了智能生态市场,您可以获取业务解决方案和模型算法,实现相关业务和技术的高效对接。

阿里云的AI发开平台特点:

1、丰富的机器学习算法

PAI的算法都经过阿里巴巴集团大规模业务的沉淀,不仅支持基础的聚类和回归类算法,同时也支持文本分析和特征处理等复杂算法。

2、支持对接阿里云其他产品

PAI训练的模型直接存储在MaxCompute中,可以配合阿里云的其他产品使用。

3、一站式的机器学习体验

PAI支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程。

4、支持主流深度学习框架

PAI支持TensorFlow、Caffe及MXNet等主流的机器学习框架。

5、可视化的建模方式

PAI封装了经典的机器学习算法,具有以下优势:支持使用拖拽的方式搭建机器学习实验;支持使用内置的PAI-AutoML进行调参,实现模型参数自动探索、模型效果自动评估、模型自动向下传导及模型自动优化。

6、一键式的模型部署服务

PAI支持将PAI-Studio、PAI-DSW及PAI-Autolearning生成的训练模型一键式发布为Restful API接口,实现模型到业务的无缝衔接。

二、华为云的AI开发平台ModelArts

ModelArts是一个一站式的开发平台,能够支撑开发者从数据到AI应用的全流程开发过程。包含数据处理、模型训练、模型管理、模型部署等操作,并且提供AI市场功能,能够在市场内与其他开发者分享模型。ModelArts支持应用到图像分类、物体检测、视频分析、语音识别、产品推荐、异常检测等多种AI应用场景,下图是ModelArts架构

华为云的AI开发平台-ModelArts特点

1、一站式

开“箱”即用,涵盖AI开发全流程,包含数据处理、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。

2、易上手

提供多种预置模型,开源模型想用就用;模型超参自动优化,简单快速;零代码开发,简单操作训练出自己的模型;支持模型一键部署到云、边、端。

3、高性能

自研MoXing深度学习框架,提升算法开发效率和训练速度;优化深度模型推理中GPU的利用率,加速云端在线推理;可生成在Ascend芯片上运行的模型,实现高效端边推理。

4、灵活

支持多种主流开源框架(TensorFlow、Spark_MLlib、MXNet、Caffe、PyTorch、XGBoost-Sklearn、MindSpore);支持主流GPU和自研Ascend芯片;支持专属资源独享使用;支持自定义镜像满足自定义框架及算子需求。

三、百度云的飞浆

飞桨 (PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,2016 年正式开源,是全面开源开放、技术领先、功能完备的产业级深度学习平台。飞桨源于产业实践,始终致力于与产业深入融合。目前飞桨已广泛应用于工业、农业、服务业等,服务 210 多万开发者,与合作伙伴一起帮助越来越多的行业完成 AI 赋能,下图为其使用场景概览

百度云飞浆的优势:

1、开发便捷提升效率

飞桨深度学习框架采用基于编程逻辑的组网范式,对于普通开发者而言更容易上手,符合他们的开发习惯。同时支持声明式和命令式编程,兼具开发的灵活性和高性能。网络结构自动设计,模型效果超越人类专家。

2、超大规模深度学习模型训练技术

飞桨突破了超大规模深度学习模型训练技术,实现了支持千亿特征、万亿参数、数百节点的开源大规模训练平台,攻克了超大规模深度学习模型的在线学习难题,实现了万亿规模参数模型的实时更新。

3、多端多平台部署的高性能推理引擎

飞桨不仅兼容其他开源框架训练的模型,还可以轻松地部署到不同架构的平台设备上。同时,飞桨的推理速度也是全面领先的。尤其经过了跟华为麒麟NPU的软硬一体优化,使得飞桨在NPU上的推理速度进一步突破

4、产业级开源模型库

飞桨官方支持100多个经过产业实践长期打磨的主流模型,其中包括在国际竞赛中夺得冠军的模型;同时开源开放200多个预训练模型,助力快速的产业应用

四、科大讯飞的AIUI

AIUI 开放平台主要包含了语义技能(Skill)、问答库(Q&A)编辑以及AIUI 应用(硬件)云端配置的能力,并为不同形态产品提供了不同的接入方式。目前有如下接入方式有,Android、iOS、Windows、Linux SDK,基于 HTTP 协议的 WebAPI,以及软硬一体的AIUI 评估板(量产板)、讯飞魔飞智能麦克风,下图为AIUI产品框架。

科大讯飞的AIUI特点:

1、语音唤醒

语音唤醒是指通过4-6个音节的唤醒词,将设备从不对外部声音进行识别的休眠状态唤醒为接受并识别外部声音的交互状态。讯飞的语音唤醒具有小尺寸,低功耗,高唤醒的特点。并且用户可自定义唤醒词,单个设备最高支持8个唤醒词同时使用

2、语音识别

语音识别(ASR)是一种将人的语音转换为文本的技术。科大讯飞同时拥有中文、粤语、英语等21种语言/方言的识别引擎。

3、语音降噪、回声消除、全双工交互

语音降噪指降低环境噪音,提高人声辨识度,基于讯飞多麦克风阵列,AIUI 在实现降

噪的同时可以确定唤醒的方向,并抑制其它方向的人声。

回声消除指产品扬声器发声(TTS 或播放音频)时,可以不关闭产品麦克风的拾音功能,扬声器的回声可以通过讯飞的降噪算法消除,不送入语音识别引擎。

全双工交互指在设备扬声器发声时,且不关闭麦克风的情况下,用户可以打断设备的播放,进行语音识别和语义理解。

4、语义理解

语义理解(NLP)指将一句自然语言转化为计算机可读的结构化数据。语义理解也是

AIUI 的核心功能。

5、语音合成

语音合成(TTS)是指将文字信息转化为声音信息,给产品配上“嘴巴”。讯飞提供了众多极具特色的发音人(音库)供您选择。其合成音在音色、自然度等方面的表现均接近甚至超过了人声。拥有中英粤多语种、川豫多方言、男女声多风格的选择,音量、语速、音高等参数也支持动态调整,同时提供定制专属发言人。

6、内容(信源)

内容(信源)指语义理解后对客户真实有用的数据,例如天气具体状态,音乐的播放链接。AIUI 技能商店中多数技能具有相对应的信源,在最终的结构化数据 Json 中表现为

data 字段。我们诚邀各类内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源,讯飞提供了多种合作方案,和内容提供商共享 AI 时代的流量红利。

2、存储器配置与技术特点

一、科大讯飞的AIUI配置

MT8516开发套件是一款基于MTK平台MT8516处理器和科大讯飞环形 6麦阵列结构的语音整体解决方案。此外还提供红外、串口、ZigBee 等多种接口,小巧易扩展,搭载

iFLYOS 生态,提供海量内容服务与定制化接口,满足多种远、近场语音交互场景,下图为MT8516芯片框图与芯片信息。

产品特性:

1、远/近场拾音

方案前端采用科大讯飞6麦克风阵列,能够实现家居场景 5-10m 左右的用户指令音频拾取,通过新一代神 经网络降噪算法对拾取音频进行处理,提供高品质降噪后音频给到后端,以保障唤醒、识别效果。

2、噪声抑制

该功能基于科大讯飞6麦克风阵列中的声源定位和波束增强等算法特性,通过采集指令声源(控制设备 的发音人)所在波束范围内的声音,抑制或者不处理其它波束所接收的

声音,以提升采集声音的效果, 为后续唤醒和命令词识别效果提供保障。

3、回声消除

支持用户交互过程中,实现一次唤醒,多轮交互的控制方式,即用户可以中断播报进程进行下一轮交 互,让交互更加自然,流畅。

二、华为云昇腾Atlas 800推理服务器

Atlas 800 推理服务器是基于华为昇腾310处理器+Arm/x86架构处理器的AI推理服务器,提供强大的实时推理能力,广泛应用于AI推理场景。下图为Atlas 800 推理服务器,型号:3000。

特点:

• 支持8张Atlas 300I 推理卡,满足多场景推理需求;整机可提供640路高清视频实时分析(1080P 25FPS)

• 搭载64核架构、具有超强算力的鲲鹏920处理器,高效加速应用

• 发挥鲲鹏架构多核、低功耗优势,为推理场景构建高效能、低功耗的AI计算平台

• Atlas 300I 单卡功耗仅67W,为AI服务器算力加速同时提供更优的能效比

三、华为云昇腾Atlas 800训练服务器

Atlas 800 训练服务器(型号:9000)是基于华为鲲鹏920+昇腾910处理器的AI训练服务器,具有最强算力密度、超高能效与高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。

特点:

• 4U高度提供 2.24 PFLOPS FP16超强算力

• 算力密度达到业界1.36倍

• 单机支持风冷和液冷两种散热方式

• 提供2.24 PFLOPS/5.6 kW超高能效比,达到业界1.21

• 8*100G RoCE v2高速接口

• 芯片间跨服务器互联时延缩短10~70%

四、华为云昇腾Atlas 900 PoD

Atlas 900 PoD(型号:9000)是基于华为昇腾910+ 鲲鹏920 处理器的AI训练集群基础单元,具有超强AI算力、更优AI能效、最佳AI拓展等特点。该基础单元广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大AI算力的领域。

特点:

• 47U 高度提供最高20.48 PFLOPS FP16超强AI算力

•提供20.48 PFLOPS/43 kW超高能效比

• 支持机柜单元扩展,最大可拓展至4096颗昇腾910芯片集群,总算力达1 EFLOPS

FP16

五、华为云鲲鹏裸金属服务器

裸金属服务器(Bare Metal Server)提供专属的云上物理服务器,为数据库、大数据、容器、高性能计算、AI等企业关键业务提供高性能、高安全性、灵活性和弹性,加速企业关键业务上云进程。

特点:

1、极速型SSD云硬盘

采用了结合全新低时延拥塞控制算法的RDMA技术,适用于需要超大带宽和超低时延的应用场景;单盘最大128,000 IOPS、1000MB/s吞吐量,200μs时延

2、超高IO云硬盘

低时延、高性能,适用于高性能,高读写速率要求,读写密集型应用场景;单盘最大33,000 IOPS、350MB/s吞吐量,1ms时延

3、通用型SSD云硬盘

高性价比SSD,适用于各种主流的高性能、低延迟交互应用场景,如典型的企业办公、IO密集型应用、大中型开发测试、高性能系统盘等;单盘最大20,000 IOPS、250MB/s吞吐量,1ms时延

4、高IO云硬盘

高性能、高扩展、高可靠,适用于性能相对较高,读写速率要求高,有实时数据存储需求应用场景;单盘最大5,000 IOPS、150MB/s吞吐量,1ms~3ms时延

六、华为云TaiShan 200服务器(5290存储型)

5290存储型是基于华为鲲鹏920处理器的4U2路存储服务器,系统能够提供128核、2.6GHz主频的计算能力和最高1PB本地存储容量。5290存储型具有海量存储、高性能、低功耗以及易扩展的特点,适合为数据归档应用场景提供高可靠和高性价比的存储解决方案。

七、华为云TaiShan服务器

TaiShan服务器是基于华为鲲鹏处理器的数据中心服务器,具有高效能计算、安全可靠、开放生态优势,适合为企业应用提供高并发的多核算力。TaiShan服务器家族包含基于鲲鹏916处理器的TaiShan 100服务器和基于鲲鹏920处理器的TaiShan 200服务器,提供均衡型、存储型、高密型、高性能型和边缘型等不同规格形态的产品。

3、存储器总结与未来发展

存储器总结

其中内存是服务器中重要的部件之一,它是与CPU进行沟通的桥梁。服务器中所有程序的运行都是在内存中进行的,因此内存的性能对服务器的作用非常大。可以看到在内存方面,多数服务器的内存控制器为DDR4, DDR4 SDRAM全称Double Data Rate Fourth

Synchronous Dynamic Random Access Memory,即第四代双倍数据率同步动态随机存取存储器,并且在服务器中大量使用,数量大约为16~32个。

同时有的CUP支持RDIMM,Registered DIMM(RDIMM)也是常见的内存模块类型。RDIMM使用寄存器,从电力上将内存模块从剩余主板中隔离出来,其优点是,只需更少的

电力负载支持,系统能够填充更多RDIMM,支撑内存容量。缺点是的是缓冲组件增加了对内存转换的延迟,稍微降低了性能并增加了能耗需求。

在内地储存硬盘方面,使用SAS(Serial Attached SCSI)即串行连接SCSI,是新一代的SCSI技术,和现在流行的Serial ATA(SATA)硬盘相同,都是采用串行技术以获得更高的传输速度,并通过缩短连结线改善内部空间等。SAS是并行SCSI接口之后开发出的全新接口。此接口的设计是为了改善存储系统的效能、可用性和扩充性,并且提供与SATA硬盘的兼容性,SAS的接口技术是可以向下兼容SATA。

SATA,即Serial ATA(串行 ATA),全称是Serial Advanced Technology Attachme-

nt,是由Intel、IBM、Maxtor 和 Seagate等公司共同提出的硬盘接口新规范。因为采用串行连接方式,所以使用 SATA 接口的硬盘又叫串口硬盘。SATA 规范将硬盘的外部传输速率理论值提高到了 150MB/s,比 Ultra ATA/100 高出 50%,比Ultra ATA/133 也要高出约 13%。最初的SAS标准提供了300MB/s或者3Gb/s的数据传输速度,而SATA标准的速度则最高只能达到150MB/s。

同时硬盘还有SSD与HDD之区别,固态硬盘(Solid State Drives),简称固盘,固态硬盘(Solid State Drive)用固态电子存储芯片阵列而制成的硬盘,由控制单元和存储单元(FLASH芯片、DRAM芯片)组成。新一代的固态硬盘普遍采用SATA-2接口、SATA-3接口、SAS接口、MSATA接口、PCI-E接口、NGFF接口、CFast接口和SFF-8639接口。

HDD(Hard Disk Drive)即硬盘驱动器的英文名,是最基本的电脑存储器,目前硬盘一般常见的磁盘容量为80G、128G、160G、256G、320G、500G、750G、1TB、2TB等等。硬盘按体积大小可分为3.5寸、2.5寸、1.8寸等;按接口可分为PATA、SATA、SCSI等。PATA、SATA一般为桌面级应用,容量大,价格相对较低,适合家用;而SCSI一般为服务器、工作站等高端应用,容量相对较小,价格较贵,但是性能较好,稳定性也较高。

在硬件配置中还有一种支持新型的协议的硬盘,NVMe全称Non-Volatile Memory

Express,非易失性存储器标准,是使用PCI-E通道的SSD一种规范,NVMe的设计之初就有充分利用到PCI-E SSD的低延时以及并行性,还有当代处理器、平台与应用的并行性。NVMe标准对比AHCI标准的优势,其中之一就是低延时,在软件层方面,NVMe标准的延时只有AHCI的一半不到,NVMe精简了调用方式,执行命令时不需要读取寄存器;而AHCI每条命令则需要读取4次寄存器,一共会消耗8000次CPU循环,从而造成大概2.5微秒的延迟。

另外NVMe也大大的提升了SSD的IOPS性能,现在SSD测试通常最多只会测试到队列

深度为32的IOPS能力,其实终究原因这是AHCI的上限,其实许多闪存主控可以提供更好的队列深度。而NVMe则可以把最大队列深度从32提升到64000,SSD的IOPS能力也会得到大幅提升。

未来发挥

云计算将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务,其最终目标是将计算、服务和应用作为一种公共设施提供给公众,使人们能够像使用水、电、煤气和电话那样使用计算机资源。

在计算存储配置方面,各种服务器采用大量的内存和多个大容量硬件匹配来满足计算,其中DDR4提高了频率,增加了容量,降低了功耗,起步频率降至1.2V,而频率提升至2133MHz,次年进一步将电压降至1.0V,频率则实现2667MHz。SAS标准提供了300MB/s或者3Gb/s的数据传输速度,在硬件协议方面相比与现在的AHCI标准,NVMe标准可以带来多方面的性能提升,随着高端SSD的战场已经向PCI-E和M.2接口转移,老旧的AHCI标准已经不合时宜,越来越多的主控厂商推出支持NVMe的主控,未来也会有更多支持NVMe标准的SSD推向市场。

同时各种存储器的也具有优秀的性能,过去的一些托管存储和远程存储总是存在着延迟时间过长的问题,最新存储器有突破性的成就,体现在客户端或本地设备高速缓存上,将经常使用的数据保持在本地,从而有效地缓解互联网延迟问题。通过一个本地NAS网关,通过人工智能计算平台的云存储可以模仿终端NAS设备的可用性、性能和可视性,同时将数据予以远程保护。随着存储技术的不断发展,各厂商仍将继续努力实现容量优化,

从而尽量减少数据传输的延迟性。总的来说,未来的存储器仍在其速度、容量、吞吐、时延、安全、功耗等方面有更高性能的突破,为人工智能计算时代提供强劲的算力支持。

2024年1月21日发(作者:崔吉)

人工智能计算平台与存储器研究报告

在物联网、大数据和人工智能的推动下,从交通运输、医疗保健到零售和娱乐等众多行业将走上转型之路,我们将其统称为Al计算时代。在以前的计算时代,大型机/小型机、PC/服务器和智能手机/平板电脑均受益于摩尔定律的进步,伴随着2D微缩,产品的性能、功耗和面积/成本(也称为PPAC)得以同步提升。

虽然Al时代的各类应用正在蓬勃发展,但摩尔定律却放缓了脚步;因此,行业需要在2D微缩以外取得突破,以全新方式推动PPAC的提升。具体而言,我们需要新的计算架构、新材料、新结构(特别是节省面积的3D结构) ,以及用于芯片堆叠和异构设计的高级封装。人工智能时代的架构变化正在对逻辑和存储器产生影响,下图为人工智能时代推动半导体存储器发展的进程。

我通过对现在常见的人工智能计算平台:阿里云的AI开发平台-机器学习PAI,华为云的AI开发平台-ModelArts,百度云的飞桨,科大讯飞的AIUUI。通过对4个平台的人工智能先进代表的平台进行配置和特点的了解,其中仅有华为云对云计算服务器设备有明确配置参数,所以我将着重对华为云鲲鹏、昇腾等的云存储器的配置进行查询,了解其特点,并对现在存储器未来发展做出论述。

4个平台各有其优势,华为云依托华为强劲的科研能力,如今作为市场黑马,异军突起;而阿里云作为人工智能平台中其中布局较早,市场占有率较高;百度云的飞浆平台在自动驾驶等应用方面有较多经验,并且在多方面都有扩展应用;科大讯飞的AIUI是深耕20年的强劲智能语音开发平台,是国内乃至世界人工智能语音领域的领导。

1、人工智能计算平台

一、阿里云的AI发开平台

如下图所示,阿里云的PAI的业务架构分为五层:

基础设施层:包括CPU、GPU、FPGA及NPU。

计算引擎和容器服务层:包括MaxCompute、EMR、实时计算等计算引擎及容器服务ACK。

计算框架层:包括Alink、TensorFlow、PyTorch、Caffe、MapReduce、SQL及MPI等计算框架,用于执行分布式计算任务。

数据准备:PAI提供了智能标注,支持在多种场景下进行数据标注和数据集管理。

模型开发和训练:PAI提供了可视化建模PAI-Studio、交互式编程建模PAI-DSW、云原生深度学习训练平台PAI-DLC及端到端自动学习PAI-AutoLearning,满足不同的建模需求。

模型部署:PAI提供了云原生在线推理服务平台PAI-EAS和模型推理加速工具PAI-Blade,帮助您快速地将模型部署为服务。同时,PAI提供了智能生态市场,您可以获取业务解决方案和模型算法,实现相关业务和技术的高效对接。

阿里云的AI发开平台特点:

1、丰富的机器学习算法

PAI的算法都经过阿里巴巴集团大规模业务的沉淀,不仅支持基础的聚类和回归类算法,同时也支持文本分析和特征处理等复杂算法。

2、支持对接阿里云其他产品

PAI训练的模型直接存储在MaxCompute中,可以配合阿里云的其他产品使用。

3、一站式的机器学习体验

PAI支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程。

4、支持主流深度学习框架

PAI支持TensorFlow、Caffe及MXNet等主流的机器学习框架。

5、可视化的建模方式

PAI封装了经典的机器学习算法,具有以下优势:支持使用拖拽的方式搭建机器学习实验;支持使用内置的PAI-AutoML进行调参,实现模型参数自动探索、模型效果自动评估、模型自动向下传导及模型自动优化。

6、一键式的模型部署服务

PAI支持将PAI-Studio、PAI-DSW及PAI-Autolearning生成的训练模型一键式发布为Restful API接口,实现模型到业务的无缝衔接。

二、华为云的AI开发平台ModelArts

ModelArts是一个一站式的开发平台,能够支撑开发者从数据到AI应用的全流程开发过程。包含数据处理、模型训练、模型管理、模型部署等操作,并且提供AI市场功能,能够在市场内与其他开发者分享模型。ModelArts支持应用到图像分类、物体检测、视频分析、语音识别、产品推荐、异常检测等多种AI应用场景,下图是ModelArts架构

华为云的AI开发平台-ModelArts特点

1、一站式

开“箱”即用,涵盖AI开发全流程,包含数据处理、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。

2、易上手

提供多种预置模型,开源模型想用就用;模型超参自动优化,简单快速;零代码开发,简单操作训练出自己的模型;支持模型一键部署到云、边、端。

3、高性能

自研MoXing深度学习框架,提升算法开发效率和训练速度;优化深度模型推理中GPU的利用率,加速云端在线推理;可生成在Ascend芯片上运行的模型,实现高效端边推理。

4、灵活

支持多种主流开源框架(TensorFlow、Spark_MLlib、MXNet、Caffe、PyTorch、XGBoost-Sklearn、MindSpore);支持主流GPU和自研Ascend芯片;支持专属资源独享使用;支持自定义镜像满足自定义框架及算子需求。

三、百度云的飞浆

飞桨 (PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,2016 年正式开源,是全面开源开放、技术领先、功能完备的产业级深度学习平台。飞桨源于产业实践,始终致力于与产业深入融合。目前飞桨已广泛应用于工业、农业、服务业等,服务 210 多万开发者,与合作伙伴一起帮助越来越多的行业完成 AI 赋能,下图为其使用场景概览

百度云飞浆的优势:

1、开发便捷提升效率

飞桨深度学习框架采用基于编程逻辑的组网范式,对于普通开发者而言更容易上手,符合他们的开发习惯。同时支持声明式和命令式编程,兼具开发的灵活性和高性能。网络结构自动设计,模型效果超越人类专家。

2、超大规模深度学习模型训练技术

飞桨突破了超大规模深度学习模型训练技术,实现了支持千亿特征、万亿参数、数百节点的开源大规模训练平台,攻克了超大规模深度学习模型的在线学习难题,实现了万亿规模参数模型的实时更新。

3、多端多平台部署的高性能推理引擎

飞桨不仅兼容其他开源框架训练的模型,还可以轻松地部署到不同架构的平台设备上。同时,飞桨的推理速度也是全面领先的。尤其经过了跟华为麒麟NPU的软硬一体优化,使得飞桨在NPU上的推理速度进一步突破

4、产业级开源模型库

飞桨官方支持100多个经过产业实践长期打磨的主流模型,其中包括在国际竞赛中夺得冠军的模型;同时开源开放200多个预训练模型,助力快速的产业应用

四、科大讯飞的AIUI

AIUI 开放平台主要包含了语义技能(Skill)、问答库(Q&A)编辑以及AIUI 应用(硬件)云端配置的能力,并为不同形态产品提供了不同的接入方式。目前有如下接入方式有,Android、iOS、Windows、Linux SDK,基于 HTTP 协议的 WebAPI,以及软硬一体的AIUI 评估板(量产板)、讯飞魔飞智能麦克风,下图为AIUI产品框架。

科大讯飞的AIUI特点:

1、语音唤醒

语音唤醒是指通过4-6个音节的唤醒词,将设备从不对外部声音进行识别的休眠状态唤醒为接受并识别外部声音的交互状态。讯飞的语音唤醒具有小尺寸,低功耗,高唤醒的特点。并且用户可自定义唤醒词,单个设备最高支持8个唤醒词同时使用

2、语音识别

语音识别(ASR)是一种将人的语音转换为文本的技术。科大讯飞同时拥有中文、粤语、英语等21种语言/方言的识别引擎。

3、语音降噪、回声消除、全双工交互

语音降噪指降低环境噪音,提高人声辨识度,基于讯飞多麦克风阵列,AIUI 在实现降

噪的同时可以确定唤醒的方向,并抑制其它方向的人声。

回声消除指产品扬声器发声(TTS 或播放音频)时,可以不关闭产品麦克风的拾音功能,扬声器的回声可以通过讯飞的降噪算法消除,不送入语音识别引擎。

全双工交互指在设备扬声器发声时,且不关闭麦克风的情况下,用户可以打断设备的播放,进行语音识别和语义理解。

4、语义理解

语义理解(NLP)指将一句自然语言转化为计算机可读的结构化数据。语义理解也是

AIUI 的核心功能。

5、语音合成

语音合成(TTS)是指将文字信息转化为声音信息,给产品配上“嘴巴”。讯飞提供了众多极具特色的发音人(音库)供您选择。其合成音在音色、自然度等方面的表现均接近甚至超过了人声。拥有中英粤多语种、川豫多方言、男女声多风格的选择,音量、语速、音高等参数也支持动态调整,同时提供定制专属发言人。

6、内容(信源)

内容(信源)指语义理解后对客户真实有用的数据,例如天气具体状态,音乐的播放链接。AIUI 技能商店中多数技能具有相对应的信源,在最终的结构化数据 Json 中表现为

data 字段。我们诚邀各类内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源,讯飞提供了多种合作方案,和内容提供商共享 AI 时代的流量红利。

2、存储器配置与技术特点

一、科大讯飞的AIUI配置

MT8516开发套件是一款基于MTK平台MT8516处理器和科大讯飞环形 6麦阵列结构的语音整体解决方案。此外还提供红外、串口、ZigBee 等多种接口,小巧易扩展,搭载

iFLYOS 生态,提供海量内容服务与定制化接口,满足多种远、近场语音交互场景,下图为MT8516芯片框图与芯片信息。

产品特性:

1、远/近场拾音

方案前端采用科大讯飞6麦克风阵列,能够实现家居场景 5-10m 左右的用户指令音频拾取,通过新一代神 经网络降噪算法对拾取音频进行处理,提供高品质降噪后音频给到后端,以保障唤醒、识别效果。

2、噪声抑制

该功能基于科大讯飞6麦克风阵列中的声源定位和波束增强等算法特性,通过采集指令声源(控制设备 的发音人)所在波束范围内的声音,抑制或者不处理其它波束所接收的

声音,以提升采集声音的效果, 为后续唤醒和命令词识别效果提供保障。

3、回声消除

支持用户交互过程中,实现一次唤醒,多轮交互的控制方式,即用户可以中断播报进程进行下一轮交 互,让交互更加自然,流畅。

二、华为云昇腾Atlas 800推理服务器

Atlas 800 推理服务器是基于华为昇腾310处理器+Arm/x86架构处理器的AI推理服务器,提供强大的实时推理能力,广泛应用于AI推理场景。下图为Atlas 800 推理服务器,型号:3000。

特点:

• 支持8张Atlas 300I 推理卡,满足多场景推理需求;整机可提供640路高清视频实时分析(1080P 25FPS)

• 搭载64核架构、具有超强算力的鲲鹏920处理器,高效加速应用

• 发挥鲲鹏架构多核、低功耗优势,为推理场景构建高效能、低功耗的AI计算平台

• Atlas 300I 单卡功耗仅67W,为AI服务器算力加速同时提供更优的能效比

三、华为云昇腾Atlas 800训练服务器

Atlas 800 训练服务器(型号:9000)是基于华为鲲鹏920+昇腾910处理器的AI训练服务器,具有最强算力密度、超高能效与高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。

特点:

• 4U高度提供 2.24 PFLOPS FP16超强算力

• 算力密度达到业界1.36倍

• 单机支持风冷和液冷两种散热方式

• 提供2.24 PFLOPS/5.6 kW超高能效比,达到业界1.21

• 8*100G RoCE v2高速接口

• 芯片间跨服务器互联时延缩短10~70%

四、华为云昇腾Atlas 900 PoD

Atlas 900 PoD(型号:9000)是基于华为昇腾910+ 鲲鹏920 处理器的AI训练集群基础单元,具有超强AI算力、更优AI能效、最佳AI拓展等特点。该基础单元广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大AI算力的领域。

特点:

• 47U 高度提供最高20.48 PFLOPS FP16超强AI算力

•提供20.48 PFLOPS/43 kW超高能效比

• 支持机柜单元扩展,最大可拓展至4096颗昇腾910芯片集群,总算力达1 EFLOPS

FP16

五、华为云鲲鹏裸金属服务器

裸金属服务器(Bare Metal Server)提供专属的云上物理服务器,为数据库、大数据、容器、高性能计算、AI等企业关键业务提供高性能、高安全性、灵活性和弹性,加速企业关键业务上云进程。

特点:

1、极速型SSD云硬盘

采用了结合全新低时延拥塞控制算法的RDMA技术,适用于需要超大带宽和超低时延的应用场景;单盘最大128,000 IOPS、1000MB/s吞吐量,200μs时延

2、超高IO云硬盘

低时延、高性能,适用于高性能,高读写速率要求,读写密集型应用场景;单盘最大33,000 IOPS、350MB/s吞吐量,1ms时延

3、通用型SSD云硬盘

高性价比SSD,适用于各种主流的高性能、低延迟交互应用场景,如典型的企业办公、IO密集型应用、大中型开发测试、高性能系统盘等;单盘最大20,000 IOPS、250MB/s吞吐量,1ms时延

4、高IO云硬盘

高性能、高扩展、高可靠,适用于性能相对较高,读写速率要求高,有实时数据存储需求应用场景;单盘最大5,000 IOPS、150MB/s吞吐量,1ms~3ms时延

六、华为云TaiShan 200服务器(5290存储型)

5290存储型是基于华为鲲鹏920处理器的4U2路存储服务器,系统能够提供128核、2.6GHz主频的计算能力和最高1PB本地存储容量。5290存储型具有海量存储、高性能、低功耗以及易扩展的特点,适合为数据归档应用场景提供高可靠和高性价比的存储解决方案。

七、华为云TaiShan服务器

TaiShan服务器是基于华为鲲鹏处理器的数据中心服务器,具有高效能计算、安全可靠、开放生态优势,适合为企业应用提供高并发的多核算力。TaiShan服务器家族包含基于鲲鹏916处理器的TaiShan 100服务器和基于鲲鹏920处理器的TaiShan 200服务器,提供均衡型、存储型、高密型、高性能型和边缘型等不同规格形态的产品。

3、存储器总结与未来发展

存储器总结

其中内存是服务器中重要的部件之一,它是与CPU进行沟通的桥梁。服务器中所有程序的运行都是在内存中进行的,因此内存的性能对服务器的作用非常大。可以看到在内存方面,多数服务器的内存控制器为DDR4, DDR4 SDRAM全称Double Data Rate Fourth

Synchronous Dynamic Random Access Memory,即第四代双倍数据率同步动态随机存取存储器,并且在服务器中大量使用,数量大约为16~32个。

同时有的CUP支持RDIMM,Registered DIMM(RDIMM)也是常见的内存模块类型。RDIMM使用寄存器,从电力上将内存模块从剩余主板中隔离出来,其优点是,只需更少的

电力负载支持,系统能够填充更多RDIMM,支撑内存容量。缺点是的是缓冲组件增加了对内存转换的延迟,稍微降低了性能并增加了能耗需求。

在内地储存硬盘方面,使用SAS(Serial Attached SCSI)即串行连接SCSI,是新一代的SCSI技术,和现在流行的Serial ATA(SATA)硬盘相同,都是采用串行技术以获得更高的传输速度,并通过缩短连结线改善内部空间等。SAS是并行SCSI接口之后开发出的全新接口。此接口的设计是为了改善存储系统的效能、可用性和扩充性,并且提供与SATA硬盘的兼容性,SAS的接口技术是可以向下兼容SATA。

SATA,即Serial ATA(串行 ATA),全称是Serial Advanced Technology Attachme-

nt,是由Intel、IBM、Maxtor 和 Seagate等公司共同提出的硬盘接口新规范。因为采用串行连接方式,所以使用 SATA 接口的硬盘又叫串口硬盘。SATA 规范将硬盘的外部传输速率理论值提高到了 150MB/s,比 Ultra ATA/100 高出 50%,比Ultra ATA/133 也要高出约 13%。最初的SAS标准提供了300MB/s或者3Gb/s的数据传输速度,而SATA标准的速度则最高只能达到150MB/s。

同时硬盘还有SSD与HDD之区别,固态硬盘(Solid State Drives),简称固盘,固态硬盘(Solid State Drive)用固态电子存储芯片阵列而制成的硬盘,由控制单元和存储单元(FLASH芯片、DRAM芯片)组成。新一代的固态硬盘普遍采用SATA-2接口、SATA-3接口、SAS接口、MSATA接口、PCI-E接口、NGFF接口、CFast接口和SFF-8639接口。

HDD(Hard Disk Drive)即硬盘驱动器的英文名,是最基本的电脑存储器,目前硬盘一般常见的磁盘容量为80G、128G、160G、256G、320G、500G、750G、1TB、2TB等等。硬盘按体积大小可分为3.5寸、2.5寸、1.8寸等;按接口可分为PATA、SATA、SCSI等。PATA、SATA一般为桌面级应用,容量大,价格相对较低,适合家用;而SCSI一般为服务器、工作站等高端应用,容量相对较小,价格较贵,但是性能较好,稳定性也较高。

在硬件配置中还有一种支持新型的协议的硬盘,NVMe全称Non-Volatile Memory

Express,非易失性存储器标准,是使用PCI-E通道的SSD一种规范,NVMe的设计之初就有充分利用到PCI-E SSD的低延时以及并行性,还有当代处理器、平台与应用的并行性。NVMe标准对比AHCI标准的优势,其中之一就是低延时,在软件层方面,NVMe标准的延时只有AHCI的一半不到,NVMe精简了调用方式,执行命令时不需要读取寄存器;而AHCI每条命令则需要读取4次寄存器,一共会消耗8000次CPU循环,从而造成大概2.5微秒的延迟。

另外NVMe也大大的提升了SSD的IOPS性能,现在SSD测试通常最多只会测试到队列

深度为32的IOPS能力,其实终究原因这是AHCI的上限,其实许多闪存主控可以提供更好的队列深度。而NVMe则可以把最大队列深度从32提升到64000,SSD的IOPS能力也会得到大幅提升。

未来发挥

云计算将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务,其最终目标是将计算、服务和应用作为一种公共设施提供给公众,使人们能够像使用水、电、煤气和电话那样使用计算机资源。

在计算存储配置方面,各种服务器采用大量的内存和多个大容量硬件匹配来满足计算,其中DDR4提高了频率,增加了容量,降低了功耗,起步频率降至1.2V,而频率提升至2133MHz,次年进一步将电压降至1.0V,频率则实现2667MHz。SAS标准提供了300MB/s或者3Gb/s的数据传输速度,在硬件协议方面相比与现在的AHCI标准,NVMe标准可以带来多方面的性能提升,随着高端SSD的战场已经向PCI-E和M.2接口转移,老旧的AHCI标准已经不合时宜,越来越多的主控厂商推出支持NVMe的主控,未来也会有更多支持NVMe标准的SSD推向市场。

同时各种存储器的也具有优秀的性能,过去的一些托管存储和远程存储总是存在着延迟时间过长的问题,最新存储器有突破性的成就,体现在客户端或本地设备高速缓存上,将经常使用的数据保持在本地,从而有效地缓解互联网延迟问题。通过一个本地NAS网关,通过人工智能计算平台的云存储可以模仿终端NAS设备的可用性、性能和可视性,同时将数据予以远程保护。随着存储技术的不断发展,各厂商仍将继续努力实现容量优化,

从而尽量减少数据传输的延迟性。总的来说,未来的存储器仍在其速度、容量、吞吐、时延、安全、功耗等方面有更高性能的突破,为人工智能计算时代提供强劲的算力支持。

与本文相关的文章

发布评论

评论列表 (0)

  1. 暂无评论