2024年1月21日发(作者:祝美)
内容目录
1. DriveGPT:毫末智行 DriveGPT 上车在即,视觉方案重塑智驾路线 .............................. 4
2. SAM 模型:CV 领域 GPT-3 时刻,分割技术走向通用化 ............................................... 6
3. 华为全新智驾方案:问界 M5 高阶智驾版粉墨登场,华为智驾迈向下一站 .................... 8
图表目录
图 1:ChatGPT 的原理类似词语接龙 .................................................................................. 4
图 2:DriveGPT 的“Drive Language” .................................................................................. 4
图 3:特斯拉的 BEV 视觉示意图 ......................................................................................... 4
图 4:DriveGPT 场景识别成本大幅降低 ............................................................................. 4
图 5:特斯拉 Model 3 ADAS 传感器主要为摄像头 .............................................................. 5
图 6:毫末智行 MANA(雪湖)感知能力 vs 激光雷达 ........................................................ 5
图 7:毫末智行 Drive GPT 的算力支持 MANA OASIS ........................................................ 5
图 8:毫末智行 Drive GPT 合作伙伴 ................................................................................... 5
图 9:计算机视觉包括对卷积神经网络进行特定训练 .......................................................... 6
图 10:使用卷积神经网络计算机视觉分析图像 ................................................................... 6
图 11:SAM 模型官方功能示例 ........................................................................................... 7
图 12:SAM 模型官方功能示例 ........................................................................................... 7
图 13:Meta AI 官网 demo 原图(示例) ........................................................................... 7
图 14:SAM 模型可以通过鼠标点击选中目标,实现图像分割 ............................................ 7
图 15:SAM 与之前的大规模分割数据收集工作相比速度大幅提升 .................................... 7
图 16:SA-1B 的掩码比任何现有的分割数据集多 400 倍 ................................................... 7
图 17:SAM 应用于农业场景 .............................................................................................. 8
图 18:SAM 应用于生物学研究场景 ................................................................................... 8
图 19: 问界 M5 智驾版申报图 ........................................................................................... 8
图 20:华为 ADS 2.0 高阶辅助驾驶四大亮点 ...................................................................... 9
表 1:卷积神经网络 (CNN) 能够针对多种应用场合执行分割、分类和检测 ...................... 6
表 2:华为 ADS 2.0 配置情况 ............................................................................................. 9
表 3:持续进化的 HarmonyOS 车机系统 .......................................................................... 10
表 4:HarmonyOS 3.0 核心功能点 ................................................................................... 10
1
1. DriveGPT:毫末智行 DriveGPT 上车在即,视觉方案重塑智驾路线
4 月 11 日,毫末智行 AI DAY 发布 DriveGPT“雪湖·海若”,GPT+自动驾驶赋能自动驾驶视觉路线,或重新配置自动驾驶硬件。
用语言描述与想象自动驾驶,DriveGPT 打开智驾方案新思路。ChatGPT 的原理类似词语接龙,其生成自然语言的逻辑可以描述为“鉴于到目前为止的文本, 基于对接龙词语的概率的判断,下一个词应该是什么”。DriveGPT 创造性地将视觉感知到的自动驾驶场景 Token 化,形成属于自动驾驶的“Drive Language”,从而运用GPT 算法,将自动驾驶决策进行预测与推演。
图 1:ChatGPT 的原理类似词语接龙 图 2:DriveGPT 的“Drive Language”
DriveGPT 赋能自动驾驶纯视觉方案,大幅降低视觉场景识别成本。DriveGPT
的“Drive Language”基于的是视觉数据,使用 BEV(Bird's Eye View,鸟瞰视图)视场框架进行自动驾驶计算。由于相机感知使用 BEV 方案的视角全面、辨识度高等诸多益处,偏爱视觉方案的 Tesla 也在自动驾驶算法中使用了 BEV 方案。纯视觉方案训练需要对视频画面进行大量标注,目前自动驾驶的视觉路线驾驶场景识别单帧图片场景识别需要约 5 元,DriveGPT 加持下,场景识别的价格将下降到单帧图片 0.5 元,仅相当于行业的 1/10。毫末智行即将向行业开放图像帧及 4D
Clips 自场景识别服务,这将大幅降低自动驾驶视觉信号的使用成本。
图 3:特斯拉的 BEV 视觉示意图 图 4:DriveGPT 场景识别成本大幅降低
2
DriveGPT 视觉方案重新配置自动驾驶硬件,自动驾驶有望降本下沉。毫末将鱼眼相机引入视觉 BEV 的感知框架当中,在泊车场景可做到在 15 米范围内达
测量精度 30cm,2 米内精度高于 10cm。毫末智行不依赖激光雷达,就能将收集的回传视频转化为可用于 BEV 模型训练的带 3D 标注的真值数据,并且重建误差小于 10cm。目前激光雷达的价格仍然高居不下,相比之下摄像头价格更为低廉,
低端价位车型受制于硬件成本往往无法搭载需要使用激光雷达的高级别自动驾驶功能,纯视觉方案的实现将有望使自动驾驶下沉至中低价位车型。
图 5:特斯拉 Model 3 ADAS 传感器主要为摄像头 图 6:毫末智行 MANA(雪湖)感知能力 vs 激光雷达
底层大算力支持+多伙伴生态共建,即将上车魏牌新摩卡。DriveGPT 背后离不开算力支持,毫末与火山引擎已共建智算中心 MANA OASIS(雪湖·绿洲),其
算力高达 67 亿亿次/秒,存储带宽 2T/秒,通信带宽达到 800G/秒。目前毫末智行
DriveGPT 已正式对外开放,开启对北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等首批限量客户的开放。毫末智行 DriveGPT 即将首发落地新摩卡 DHT-PHEV,后续将上车魏牌蓝山,同时 DriveGPT 也会逐步应用到城市 NOH、捷途推荐、智能陪练以及脱困等场景中。
图 7:毫末智行 Drive GPT 的算力支持 MANA OASIS 图 8:毫末智行 Drive GPT 合作伙伴
3
2024年1月21日发(作者:祝美)
内容目录
1. DriveGPT:毫末智行 DriveGPT 上车在即,视觉方案重塑智驾路线 .............................. 4
2. SAM 模型:CV 领域 GPT-3 时刻,分割技术走向通用化 ............................................... 6
3. 华为全新智驾方案:问界 M5 高阶智驾版粉墨登场,华为智驾迈向下一站 .................... 8
图表目录
图 1:ChatGPT 的原理类似词语接龙 .................................................................................. 4
图 2:DriveGPT 的“Drive Language” .................................................................................. 4
图 3:特斯拉的 BEV 视觉示意图 ......................................................................................... 4
图 4:DriveGPT 场景识别成本大幅降低 ............................................................................. 4
图 5:特斯拉 Model 3 ADAS 传感器主要为摄像头 .............................................................. 5
图 6:毫末智行 MANA(雪湖)感知能力 vs 激光雷达 ........................................................ 5
图 7:毫末智行 Drive GPT 的算力支持 MANA OASIS ........................................................ 5
图 8:毫末智行 Drive GPT 合作伙伴 ................................................................................... 5
图 9:计算机视觉包括对卷积神经网络进行特定训练 .......................................................... 6
图 10:使用卷积神经网络计算机视觉分析图像 ................................................................... 6
图 11:SAM 模型官方功能示例 ........................................................................................... 7
图 12:SAM 模型官方功能示例 ........................................................................................... 7
图 13:Meta AI 官网 demo 原图(示例) ........................................................................... 7
图 14:SAM 模型可以通过鼠标点击选中目标,实现图像分割 ............................................ 7
图 15:SAM 与之前的大规模分割数据收集工作相比速度大幅提升 .................................... 7
图 16:SA-1B 的掩码比任何现有的分割数据集多 400 倍 ................................................... 7
图 17:SAM 应用于农业场景 .............................................................................................. 8
图 18:SAM 应用于生物学研究场景 ................................................................................... 8
图 19: 问界 M5 智驾版申报图 ........................................................................................... 8
图 20:华为 ADS 2.0 高阶辅助驾驶四大亮点 ...................................................................... 9
表 1:卷积神经网络 (CNN) 能够针对多种应用场合执行分割、分类和检测 ...................... 6
表 2:华为 ADS 2.0 配置情况 ............................................................................................. 9
表 3:持续进化的 HarmonyOS 车机系统 .......................................................................... 10
表 4:HarmonyOS 3.0 核心功能点 ................................................................................... 10
1
1. DriveGPT:毫末智行 DriveGPT 上车在即,视觉方案重塑智驾路线
4 月 11 日,毫末智行 AI DAY 发布 DriveGPT“雪湖·海若”,GPT+自动驾驶赋能自动驾驶视觉路线,或重新配置自动驾驶硬件。
用语言描述与想象自动驾驶,DriveGPT 打开智驾方案新思路。ChatGPT 的原理类似词语接龙,其生成自然语言的逻辑可以描述为“鉴于到目前为止的文本, 基于对接龙词语的概率的判断,下一个词应该是什么”。DriveGPT 创造性地将视觉感知到的自动驾驶场景 Token 化,形成属于自动驾驶的“Drive Language”,从而运用GPT 算法,将自动驾驶决策进行预测与推演。
图 1:ChatGPT 的原理类似词语接龙 图 2:DriveGPT 的“Drive Language”
DriveGPT 赋能自动驾驶纯视觉方案,大幅降低视觉场景识别成本。DriveGPT
的“Drive Language”基于的是视觉数据,使用 BEV(Bird's Eye View,鸟瞰视图)视场框架进行自动驾驶计算。由于相机感知使用 BEV 方案的视角全面、辨识度高等诸多益处,偏爱视觉方案的 Tesla 也在自动驾驶算法中使用了 BEV 方案。纯视觉方案训练需要对视频画面进行大量标注,目前自动驾驶的视觉路线驾驶场景识别单帧图片场景识别需要约 5 元,DriveGPT 加持下,场景识别的价格将下降到单帧图片 0.5 元,仅相当于行业的 1/10。毫末智行即将向行业开放图像帧及 4D
Clips 自场景识别服务,这将大幅降低自动驾驶视觉信号的使用成本。
图 3:特斯拉的 BEV 视觉示意图 图 4:DriveGPT 场景识别成本大幅降低
2
DriveGPT 视觉方案重新配置自动驾驶硬件,自动驾驶有望降本下沉。毫末将鱼眼相机引入视觉 BEV 的感知框架当中,在泊车场景可做到在 15 米范围内达
测量精度 30cm,2 米内精度高于 10cm。毫末智行不依赖激光雷达,就能将收集的回传视频转化为可用于 BEV 模型训练的带 3D 标注的真值数据,并且重建误差小于 10cm。目前激光雷达的价格仍然高居不下,相比之下摄像头价格更为低廉,
低端价位车型受制于硬件成本往往无法搭载需要使用激光雷达的高级别自动驾驶功能,纯视觉方案的实现将有望使自动驾驶下沉至中低价位车型。
图 5:特斯拉 Model 3 ADAS 传感器主要为摄像头 图 6:毫末智行 MANA(雪湖)感知能力 vs 激光雷达
底层大算力支持+多伙伴生态共建,即将上车魏牌新摩卡。DriveGPT 背后离不开算力支持,毫末与火山引擎已共建智算中心 MANA OASIS(雪湖·绿洲),其
算力高达 67 亿亿次/秒,存储带宽 2T/秒,通信带宽达到 800G/秒。目前毫末智行
DriveGPT 已正式对外开放,开启对北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等首批限量客户的开放。毫末智行 DriveGPT 即将首发落地新摩卡 DHT-PHEV,后续将上车魏牌蓝山,同时 DriveGPT 也会逐步应用到城市 NOH、捷途推荐、智能陪练以及脱困等场景中。
图 7:毫末智行 Drive GPT 的算力支持 MANA OASIS 图 8:毫末智行 Drive GPT 合作伙伴
3