十年磨剑:商汤具身智能的底层逻辑与「悟能」平台技术架构全解析
2015年前后,深度学习浪潮席卷AI领域,商汤科技悄然成立。当时没人能预见到,这家以计算机视觉起家的公司,会在十年后推出名为「悟能」的具身智能平台,完成从感知到行动的关键一跃。
多模态:大模型通往AGI的必由之路
商汤科技联合创始人林达华曾多次在内部技术会议上强调:单一模态的天花板肉眼可见。文本能表达逻辑,图像能传递视觉信息,但物理世界的交互需要更完整的感知体系——既要看懂场景,又要理解指令,还要能操控物体。这种认知促使商汤将多模态确立为核心战略方向。
日日新V6.5多模态推理大模型的问世,验证了这一判断。传统模型的致命缺陷在于将图像强制翻译成文本描述,导致视觉信息在推理过程中大量流失。而日日新6.5独创的图文交错思维链,让图像以原生形态参与整个推理链条,实现了真正意义上的跨模态理解。
数据飞轮:从自动驾驶到具身智能的能力迁移
商汤在自动驾驶领域深耕多年,积累了感知、定位、轨迹规划、安全冗余等核心技术能力。这些能力向机器人场景迁移并非从零开始,而是在「会开车的大机器人」上验证过的成熟技术。自动驾驶车辆的感知系统与机器人的空间认知需求高度契合,技术复用的边际成本极低。
「开悟」世界模型是商汤数据战略的另一关键支点。10万3D资产支撑下的多视角视频生成能力,能够批量产出时长150秒、11个摄像头角度的时空一致视频。这解决了具身智能领域最棘手的数据稀缺问题——99%的训练任务可在仿真环境中完成,仅用1%的真实样本校正长尾场景。
「悟能」架构:三层体系支撑具身大脑
「悟能」具身智能平台的架构设计体现了清晰的技术分层理念。感知层整合视觉、语音、触觉等多模态传感器输入;决策层由LLM与世界模型协同完成规划推理;行动层通过VLA端到端模型直接控制机械臂与移动底盘。这种分层设计既保证了模块的可复用性,又为端到端优化留出了空间。
第一视角与第三视角的融合训练是平台的技术亮点。机器人自身的相机视角决定了推理时的输入分布,而人类示范的第三视角提供了完整的姿态骨骼与环境语义信息。将两种视角对齐训练,模型学会将外部示范映射为自身可执行的动作序列,从而实现「看得懂人类演示,也能在自己视角下执行」的双重能力。
商业路径:软硬协同的数据正循环
商汤选择「软硬协同」的商业路径,T模型预装进不同形态机器人后,硬件销量增长带来的真实数据回流持续反哺模型迭代。自动驾驶、机器人、机器狗等具身形态的广泛覆盖,构建起正向数据飞轮。这种商业模式的本质是「卖大脑」——模型能力成为核心竞争力,硬件形态只是载体。

