AI之HardWare：人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPUTPUNPU，GeForce【3090-4090】、Tesla【A-USB迷|专注于互联网分享

AI之HardWare：人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPU/TPU/NPU，GeForce【3090-4090】、Tesla【A800-A100/V100】、Ascend 910B)、服务器搭建(GPU集群、节点、GPU卡/显卡)之详细攻略

一、服务器和硬件相关技术的简介

1、查看系统的CPU和GPU的运行内存

A1、基于Windows系统平台：CPU=16GB、NVIDIA GPU=2GB

T1、采用dxdiag工具，Win+R内输入dxdiag

T2、利用nvidia-smi命令实时查看英伟达GPU内存

T3、利用任务资源管理器(Ctrl+Alt+Del)工具实时查看CPU、GPU内存

A2、基于Linux系统平台

T1、利用nvidia-smi命令查看英伟达GPU内存

2、计算机系统中的存储类型

(1)、对比：永久存储ROM(如硬盘)、运行内存RAM(搭配CPU)、运行内存VRAM(搭配GPU+访问速度更快+实时的吞吐量)：运行内存都是临时存储正在运行的应用程序及其数据

(2)、大模型场景下——训练过程中硬盘、CPU内存、GPU显存之间关系梳理，以及LLMs场景下各组件如何协同工作？

3、硬件相关技术的术语简介

AI之HardWare：据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D

3.1、CPU、GPU（图形处理单元）、TPU（张量处理单元）、NPU(神经网络处理单元)

(1)、华为NPU：昇腾-310(侧重边缘计算)、昇腾-910B(侧重AI计算/可对飙NVIDIA-A100)、昇腾-920(可对飙H200)

(2)、昇腾-910B-64G、NVIDIA-A100-80G

Computer：Linux系统简介(思想/特点/功能、各版本详解(Ubuntu/CentOS/Debain/openEuler等)、与Windows比较)、常见操作(Shell命令/快捷键)之详细攻略

3.2、GeForce系列【消费级游戏+不适合多卡】、Tesla 系列【企业级数据中心+双精度】

(1)、A800和A100的区别：A800是类A100中国特供版GPU芯片、是A100的NVLink降速版(多卡集群计算理论性能降低33%)

4、服务器相关术语简介

4.1、术语简介—GPU集群、节点(Node)、GPU卡/显卡(Card)

二、大模型场景下硬件配置及其注意事项

1、推理和训练的区别：训练阶段(需存储更多中间变量)、推理阶段

(1)、如何计算大模型训练阶段的GPU耗时、GPU个数

2、4090与H100/A100在大模型训练和推理场景下的性能和成本

(1)、H100、A100、4090的性能参数对比：内存、通信

(2)、4090不擅长多块训练但适合单块推理——大模型训练阶段不能采用组合多块4090但可以单块用在推理阶段，因不支持NVLink导致通信慢，license(许可证)不支持数据中心，可以实现但性价比太低

对比：训练0.04B参数的模型，单卡4090(耗时6.5分钟)、双卡4090(耗时5.5分钟)，时间仅提高了20%左右，性价比很低

三、本地搭建服务器硬件案例

1、环境配置方式

T1、利用Docker镜像部署安装：

T2、利用conda或pip安装

2、模型举例

OPT-30B模型：3台服务器共24卡(12 张PP并行+2 张DP)训练OPT-30B

三、调用云厂商服务

T1、采用谷歌的Colab

Colaboratory：手把手教你使用Google免费的云端IDE进行深度学习(免费的GPU加速)的详细攻略

T2、采用国内的AutoDL

LLMs之RAG：LangChain-Chatchat(一款中文友好的全流程本地知识库问答应用)的简介(支持ChatGLM-2/LLaMA-2等多款主流LLMs+多款embedding模型m3e等+多种TextSplitter分词器)、安装(镜像部署【AutoDL云平台/Docker镜像】，离线私有部署+支持RTX3090 ，支持FAISS/Milvus/PGVector向量库， FastAPI的API调用服务/基于Streamlit 的WebUI操作)、使用方法(不包括微调/训练，支持LLM对话/知识库问答/搜索引擎问答)之详细攻略

一、服务器和硬件相关技术的简介

1、查看系统的CPU和GPU的运行内存

一、服务器和硬件相关技术的简介

1、查看系统的CPU和GPU的运行内存

A1、基于Windows系统平台：CPU=16GB、NVIDIA GPU=2GB

T1、采用dxdiag工具，Win+R内输入dxdiag

T2、利用nvidia-smi命令实时查看英伟达GPU内存

T3、利用任务资源管理器(Ctrl+Alt+Del)工具实时查看CPU、GPU内存

A2、基于Linux系统平台

T1、利用nvidia-smi命令查看英伟达GPU内存

2、计算机系统中的存储类型

(2)、大模型场景下——训练过程中硬盘、CPU内存、GPU显存之间关系梳理，以及LLMs场景下各组件如何协同工作？

3、硬件相关技术的术语简介

AI之HardWare：据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D

3.1、CPU、GPU（图形处理单元）、TPU（张量处理单元）、NPU(神经网络处理单元)

(1)、华为NPU：昇腾-310(侧重边缘计算)、昇腾-910B(侧重AI计算/可对飙NVIDIA-A100)、昇腾-920(可对飙H200)

(2)、昇腾-910B-64G、NVIDIA-A100-80G

Computer：Linux系统简介(思想/特点/功能、各版本详解(Ubuntu/CentOS/Debain/openEuler等)、与Windows比较)、常见操作(Shell命令/快捷键)之详细攻略

3.2、GeForce系列【消费级游戏+不适合多卡】、Tesla 系列【企业级数据中心+双精度】

(1)、A800和A100的区别：A800是类A100中国特供版GPU芯片、是A100的NVLink降速版(多卡集群计算理论性能降低33%)

4、服务器相关术语简介

4.1、术语简介—GPU集群、节点(Node)、GPU卡/显卡(Card)

二、大模型场景下硬件配置及其注意事项

1、推理和训练的区别：训练阶段(需存储更多中间变量)、推理阶段

(1)、如何计算大模型训练阶段的GPU耗时、GPU个数

2、4090与H100/A100在大模型训练和推理场景下的性能和成本

(1)、H100、A100、4090的性能参数对比：内存、通信

对比：训练0.04B参数的模型，单卡4090(耗时6.5分钟)、双卡4090(耗时5.5分钟)，时间仅提高了20%左右，性价比很低

三、本地搭建服务器硬件案例

1、环境配置方式

T1、利用Docker镜像部署安装：

T2、利用conda或pip安装

2、模型举例

OPT-30B模型：3台服务器共24卡(12 张PP并行+2 张DP)训练OPT-30B

三、调用云厂商服务

T1、采用谷歌的Colab

Colaboratory：手把手教你使用Google免费的云端IDE进行深度学习(免费的GPU加速)的详细攻略

T2、采用国内的AutoDL

USB迷 | 专注于互联网分享

AI之HardWare：人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPUTPUNPU，GeForce【3090-4090】、Tesla【A

一、服务器和硬件相关技术的简介

1、查看系统的CPU和GPU的运行内存

一、服务器和硬件相关技术的简介

1、查看系统的CPU和GPU的运行内存

与本文相关的文章

评论列表 (0)