北大董豪谈具身大模型演进趋势:从模仿到强化、从单任务Scaling到通用Scaling

2026-06-15 10:16:01 来源:北青网


(资料图片仅供参考)

北京大学计算机学院副教授、上纬启元首席科学家董豪近日在北大科技园交流中谈及具身大模型演进趋势。作为横跨具身智能领域产学研的专家,董豪拆解了当前模仿学习、强化学习、仿真数据集等主流技术路线的瓶颈,并提出全新横向二维Scaling Law框架,统一解释世界模型、生成式数据增强、人示教数据转化等前沿方案的底层逻辑,为家用、通用人形机器人落地指明技术演进方向。

以下为报告实录:

我至今仍清晰地记得 AlphaGo 团队做分享的场景 —— 当时我就在伦敦,UCL 离我的住处很近。那场演讲给我留下了极为深刻的震撼,也让我对 AI 技术的演进逻辑有了更本质的思考。

AlphaGo 的成功,清晰地展现了 AI 能力跃升的第一套经典范式:先模仿,后强化。它首先通过海量人类棋谱进行监督学习,本质上就是模仿人类棋手的落子决策。但这种纯模仿学习有一个天然的天花板:模型的能力永远无法超越训练数据中人类的最高水平。

为了突破这个瓶颈,AlphaGo 引入了自对弈强化学习:让两个经过预训练的模型相互对弈,通过胜负结果产生明确的反馈信号。在这个过程中,模型不再受限于人类经验,能够自主探索出人类从未想到过的策略,最终实现了对人类顶尖棋手的超越。

这一 “模仿 - 强化” 的技术演进路径,在后来的 ChatGPT 身上得到了完美复刻。ChatGPT 首先基于互联网海量文本数据进行大规模预训练,这一阶段的核心依然是模仿学习 —— 学习人类语言的表达方式和知识体系。而它之所以能从一个 “会说话的模型” 变成一个 “会好好说话的模型”,关键在于引入了基于人类反馈的强化学习(RLHF):让模型对同一个问题生成多个回答,由人类标注员对不同回答的质量进行打分,再将这些人类偏好作为回报信号来微调模型。

标签: 消费导报网 24小时资讯

上一篇:纳斯达克100ETF大成:提示二级市场交易价格溢价风险|看热讯
下一篇:最后一页
业界
更多
手机
更多
测评
软件
数码