北大董豪谈具身大模型演进趋势：从模仿到强化、从单任务Scaling到通用Scaling-IT之家网

北大董豪谈具身大模型演进趋势：从模仿到强化、从单任务Scaling到通用Scaling

2026-06-15 10:16:01 来源：北青网

(资料图片仅供参考)

北京大学计算机学院副教授、上纬启元首席科学家董豪近日在北大科技园交流中谈及具身大模型演进趋势。作为横跨具身智能领域产学研的专家，董豪拆解了当前模仿学习、强化学习、仿真数据集等主流技术路线的瓶颈，并提出全新横向二维Scaling Law框架，统一解释世界模型、生成式数据增强、人示教数据转化等前沿方案的底层逻辑，为家用、通用人形机器人落地指明技术演进方向。

以下为报告实录：

我至今仍清晰地记得 AlphaGo 团队做分享的场景 —— 当时我就在伦敦，UCL 离我的住处很近。那场演讲给我留下了极为深刻的震撼，也让我对 AI 技术的演进逻辑有了更本质的思考。

AlphaGo 的成功，清晰地展现了 AI 能力跃升的第一套经典范式：先模仿，后强化。它首先通过海量人类棋谱进行监督学习，本质上就是模仿人类棋手的落子决策。但这种纯模仿学习有一个天然的天花板：模型的能力永远无法超越训练数据中人类的最高水平。

为了突破这个瓶颈，AlphaGo 引入了自对弈强化学习：让两个经过预训练的模型相互对弈，通过胜负结果产生明确的反馈信号。在这个过程中，模型不再受限于人类经验，能够自主探索出人类从未想到过的策略，最终实现了对人类顶尖棋手的超越。

这一 “模仿 - 强化” 的技术演进路径，在后来的 ChatGPT 身上得到了完美复刻。ChatGPT 首先基于互联网海量文本数据进行大规模预训练，这一阶段的核心依然是模仿学习 —— 学习人类语言的表达方式和知识体系。而它之所以能从一个 “会说话的模型” 变成一个 “会好好说话的模型”，关键在于引入了基于人类反馈的强化学习（RLHF）：让模型对同一个问题生成多个回答，由人类标注员对不同回答的质量进行打分，再将这些人类偏好作为回报信号来微调模型。

标签：消费导报网 24小时资讯

业界

手机

破解手机屏幕使用时的一大难题苹果新专利曝光

使用墨镜或太阳镜看手机屏幕时，常常会出现部分屏幕变得黑漆漆一片的情况，给使用带来了不便。苹果最近获得了一项专利，可以解决这个问题。

苹果考虑将iPhone系列进一步延伸 2024年上市？

苹果正在考虑将iPhone的Pro系列进一步向上延伸，一位可靠的泄密者的报告坚称它可能会在2024年上市。自 2022 年年中以来的传言提出了苹果

卷出一块好曲屏真我10系列新品发布会举行

11月17日下午，真我realme举行主题为卷出一块好曲屏的真我10系列新品发布会，正式推出全新一代科技越级代表作真我10系列的三款新品以及真我

英国猴痘病例数预计将大幅上升

人民网伦敦5月22日电（余颖）截至5月20日，英国确诊猴痘病例总数上升至20例。由于猴痘病毒在英国已经开始社区传

上海：视情适当延长毕业生在校生身份时间

人民网北京5月23日电（记者孙竞）据上海市教委政务微信"上海教育"消息，为做好2022届高校毕业生就业创业工作，

国家电网确定新型电力系统科技攻关十大重点项目

5月19日，国家电网新型电力系统科技攻关行动计划2022专项重大科技项目责任状签订视频会议在京召开。国家电网公司

比亚迪发布CTB电池车身一体化技术

5月20日，比亚迪发布了CTB电池车身一体化技术及首款搭载了CTB技术的e平台3 0车型。比亚迪CTB电池车身一体化技术简

商务部：坚定致力于实现全面、高水平的亚太自贸区

人民网北京5月23日电（记者赵竹青）据商务部网站消息，21至22日，亚太经合组织（APEC）举行第二十八届贸易部长

中办国办印发《意见》推进实施国家文化数字化战略

新华社北京5月22日电近日，中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》（以下

初夏看市场：“菜篮子”产品生产供应充足蔬菜在田面积达9877.2万亩

人民网北京5月23日电（记者李栋）据农业农村部最新发布，我国主要“菜篮子”产品生产供应充足，当前蔬菜在田面

上海浦东重点生产企业复工复产超1100家

新华社上海5月22日电（记者杨有宗）记者22日从上海市浦东新区获悉，浦东新区企业复工复产持续推进，截至目前，在

女子为夹带“过关”，裤兜胸前藏15条活蛇4只蜈蚣

2023-09-09

中国组合樊振东/林高远与马龙/王楚钦进军亚锦赛男双决赛，实力碾压韩国组合

2023-09-09

问界新M7开启预售：25.8-31.8万

2023-09-09

音响嗡嗡的响电流声是怎么回事音响有电流声嗡嗡嗡嗡

2023-09-09

鸟窝能有多大？深6米、重2.7吨！这几张图绝对震撼你

2023-09-09

女子为夹带“过关”，裤兜胸前藏15条活蛇4只蜈蚣

中国组合樊振东/林高远与马龙/王楚钦进军亚锦赛男双决赛，实力碾压韩国组合

问界新M7开启预售：25.8-31.8万

音响嗡嗡的响电流声是怎么回事音响有电流声嗡嗡嗡嗡

鸟窝能有多大？深6米、重2.7吨！这几张图绝对震撼你

能源革命数智赋能业内人士山西太原共话新型能源体系建设

大逆转！首盘0-6，萨巴伦卡双抢七逆转凯斯，晋级美网决赛

专家齐聚云南共谋通航短途运输发展新篇章

证监会发布《行政处罚罚没款执行规则》

诗经共有四家（诗经是哪四家）

索尼发布最新全画幅ZV系列Vlog相机相机参数曝光

佳能新专利公示：F1.4大光圈超广角镜头或将发布

佳能全画幅旗舰相机EOSR50或2023年2月发布

上海市崇明生态环岛防汛工程正式复工

民航局向东航MU772航班发出熔断指令

1-4月我国软件业务收入27735亿元同比增长10.8%