王田苗：2025具身智能的破局点在“智能定界”-博客连连看的专栏

王田苗：2025具身智能的破局点在“智能定界”

2025-09-29 19:16:55栏目：趣事记录 IP属地：北京市

9月27日，2025网易未来大会在杭州举行，主题为“以智能·见未来”。本次大会由网易公司主办，杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

本届大会将作为“第四届全球数字贸易博览会”的组成部分之一，聚焦人工智能各领域的发展，探索未来趋势。大会将由中国工程院院士潘云鹤、蒋昌俊等四大院士领衔，汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地，在思想碰撞中捕捉全新的时代机遇。

在大会中，智友·雅瑞科创平台发起人、北航机器人研究所名誉所长、教授王田苗发表了题目为《2025具身智能破局之路》主题演讲。

王田苗博士在演讲中指出，当前具身智能的发展面临两大核心挑战：一是“具身智能世界模型”尚未真正诞生；二是算力功耗高以及产业落地的容错性问题仍悬而未决。结合对麦肯锡、华为、阿里、Gartner等多个机构报告的深入思考与分析，他坚信未来十年将发生深刻变革，AI应用、算力、能源将迎来10万倍需求增长机会，存储芯片等需求增加500倍，Agent、通讯等需求提升100倍，100倍能源消耗增长。此外，他预测未来85%的家庭将使用服务机器人或全新的智能终端，90%的AR/XR应用将覆盖娱乐文体领域，90%慢性病监控和100%城市管理服务也将实现智能化。

与此同时，改革开放40年为中国奠定了独特的发展飞轮。随着中国二元结构体制优势、内需市场与市场经济深度融合，法治与开放不断完善，叠加其巨大的工业制造体系，为中国发展积累了强大势能。特别是在新时代科技创新与产业升级的浪潮中，移动互联网人才外溢与工程师红利融合，特别是我们党、政府、企业、大众都怀揣着“中华民族伟大复兴”的强大内驱力，这一切将驱动中国的巨大“飞轮”持续运转——启动之初或许缓慢，可一旦转动起来，便会越来越快，最终形成波澜壮阔的历史转型，推动中国实现前所未有的伟大进步。

“未来十年将有五次重大的‘复合型变革’机遇”。王田苗博士具体指出，包括AI世界模型；光/量子芯片、通讯(6G、卫星)；生物感知-脑机接口；固态电池、月球开采、天基太阳能、核聚变；新物种-具身智能体+运营商业服务。其中AI大模型、数据、Agent工具、算力芯片是爆发引擎，云服务数据中心、6G通讯、信息感知、新能源是支撑与链接技术，新物种-具身智能体+运营商业服务是服务落地2C、2B、2G的检验验证的商业应用场景。

其中，针对新物种具身智能体的世界模型”尚未真正诞生、算力功耗成本高以及产业落地的容错性问题仍悬而未决的挑战与机遇，王教授进一步提出其核心的破局方案——“智能定界”。所谓智能定界，是将重复性高、执行繁重或危险，但结果可控的任务归由机器人执行，将那些不容许出错、后果严重的关键任务交由人类负责。最终目标是融合商业运营、本体控制、AI垂类模型与数据域控，构建一个高效的人机共生服务系统。智能定界的价值在于，它为理解垂类场景、设计载体提供了可应用的清晰框架，并能通过闭环数据持续对齐现实，提高模型准确率。基于此，当具身智能的应用开发被“定界、商业运营、数据服务”所牵引时，就很容易对现有的技术、模型和算力进行高效、精准地裁剪与收敛，从而加速具身智能落地进程。

展望未来，王教授还特别强调了中国独特的“二元结构”驱动力——国家逻辑（如国家安全、产业底座）与市场逻辑（引领未来全球科创的产业头部或独角兽）的双向协同作用，以及工程师红利与制造业优势的融合。他认为中国不仅是具身智能浪潮的不可或缺者，更将是从数字世界走向物理世界驱动全球产业变革的主导力量，将有望推动无人驾驶、清洁、物流、医疗、工厂、农业、建筑等多领域应用落地，形成以商业运营和数据服务为牵引的商业闭环。

以下是王田苗博士的演讲实录：

王田苗：当前具身智能，特别是人形机器人非常火爆，人们阐述了很大的一种希望和期待，但现实中有两个问题一直未解决，一个问题就是我们所想象的“具身智能世界模型”尚未真正诞生，无论互联网数据，还是遥操，还是数据合成。第二，算力功耗以及特别是在生产和制造环境中的容错性问题仍悬而未决，产业落地亟待形成“效率与成本”的商业闭环。所以在这个背景下，我主要与大家分享一下未来十年破局这一问题的思考路径。有一点大家还是比较坚信的，未来十年，人工智能所升级的各种应用将迎来10万倍增长机会，存储芯片等需求增加500倍，Agent、通讯等需求提升100倍，85%的家庭将使用服务机器人，慢性病监控和城市管理等领域将全面智能化。这是由于大势所趋：一切数据都被AI激活，一切设备都被AI所赋予智能，一切软件都将被重塑，而且一切运营与关系都将被AI驱动。

在此背景下，未来十年我相信会有五次重大的机会，不断探索中的AI世界模型，哪怕是专用的垂类模型；另外，光/量子芯片、通讯(6G、卫星)；生物感知-脑机接口；固态电池、月球开采、天基太阳能、核聚变；智能新物种+运营商业服务。

回到我刚才说的两个问题，没有找到世界大模型，同时算力功耗和容错问题，如何解决？

首先看中国国情，制造业不仅是中国未来发展底座，更是大国竞争必须要具备的核心竞争力。目前，我国制造业的GDP增加值，已是美国、德国、意大利、英国等国GDP增加值的总和，但也面临产能过剩，对地产依赖过重、出口需求放缓等挑战。在这样的一个背景下，我理解在整个经济运行中，国家很希望推动AI大模型与智能引擎，包括AI for Science、智能工具的发展，依托云数据服务支撑、能源支撑、通讯支撑，来实现从虚拟世界到物理世界的进化，更是让AI+深度融入实体运行，用“具身智能”重塑产业未来。

在这样一个推动产业落地的背景下，如何来推动？回顾过去十年，我们曾习惯于将“认知”归于人类，“编程”交给计算机，“感知”交给传感器。但这十年间，我们悄然发现：感知和运动控制可以融为一体，也就是机器人在执行动作的过程中，可以自然而然地通过对物理轨迹的感知来调整行为。无论是擦拭高低不一的玻璃，还是从冰箱取可乐时避开桌角，这些看似简单的行为背后，都离不开视觉深度学习技术的支撑。

与此同时，最近五到十年，底层大模型的崛起，似乎更进一步的将认知、感知和行动三者融为一体。于是，我们看到了类人形机器人的各种跳舞、运动、翻跟头，也看到了部分的垂类模型在物流、焊接等领域得到应用。

在此背景下，我们突然感觉，一旦AI全面赋能所有的智能终端，将深刻重塑我们整个经济发展中的核心要素：劳动力问题，将逐渐由机器来解决；智能工具问题，则由机器人+智能体来改变，还有生产关系也将迎来根本性变革。

从这样的一个视角出发，我们就发现AI在“认知”层面（静态知识和记忆）已超80%至90%的博士，但在生产制造和实际应用中，其成熟度还只有50%。正因如此，我们的机器人供应链正迎来全面重构：从过去“主机在上、核心部件驱动、应用落地在下”的传统供应链模式，转向以基础大模型为驱动，智能体（Agent）工具逐步诞生、通用结构逐步形成，再到垂直类应用、专用设备与操作，并最终牵引上游通用核心部件的全新变革体系。

那我们是不是也感觉到，中国在破局当下那几个问题的时候，可能会有两个逻辑融合推动：一是国家逻辑，国家逻辑就聚焦于AI+工业、AI+国防、AI+金融以及AI+基础设施等底座方向；二是市场逻辑，体现在商业应用、To C服务以及各种先进的智能终端。这两个逻辑在我国推动科技和体制优势融合的过程中，实际是构成了一个动态的“二元结构”，这一结构既呼应全球发展的关系和态势，也与我国内在的主要矛盾相结合，两者影响的比例或程度是动态的。

基于这一逻辑，我们可以预判这五个方向将是未来推动具身智能发展的关键所在。

能源（尤其是移动机器人的长效动力）与端侧芯片（负责存储与推理）是两大基础支撑，将得到重大发展。同时，还有各种大脑、小脑、垂类模型、数据中心以及落地场景，这些也至关重要。因此，我们应该去探索硬件突破（如灵巧手、专用核心部件）、垂类模型等关键环节，来形成商业闭环。最终，这一切还是要回归具身智能的产业链变革。

回顾历史，机器人与人工智能的概念早在1954年至1956年间便已提出来。当时的愿景是让机器人完成装配，甚至能与人打高尔夫、跳舞。然而，历经十年基础探索，这些宏大构想并未实现。

专机出现在十年后，日本在摩托车、汽车领域的焊接探索，成功研制出专用工业机器人，并实现大规模应用，由此形成了坚实的工业机器人生态。随后，电子产业兴起后，高速、小范围作业的Scara 机器人（直角坐标）应运而生；随着医美、农副产品加工、商超服务的发展，并联机器人、移动机器人又成为新需求。这些形态各异的机器人，至今仍在各自领域发挥作用。而2022年，ChatGPT的爆发与特斯拉人形机器人的亮相，让1950年代就被提出的“具身智能”概念重新成为焦点，直接推动了行业发展。

从中不难看出，事物的发展都是从基础和通用开始的，但真正落地是在垂类领域，通过垂类应用反过来又会驱动并验证通用底座（Agent、专用物联网等）的技术与本体结构能力。当这些通用最终得到了市场验证，便会沉淀为新的、更强大的机器通用结构，并由此重新向上游追溯，重新定义核心部件的标准与形态。

如果这个逻辑是对的话，那是不是从“智能定界”入手，将有可能推动具身智能的头部玩家产生，从而诞生最具全球影响力的智能终端，并以此重新来定义我们的上游部件。

基于此，我们进一步将具身智能的五层（底座技术、通用具身智能玩家、专用具身智能玩家、灵巧手及末端执行器、核心部件）又划分了一下，在这里我们原来比较困惑的事情好像得到了解决。

第1，本体形态的演化趋势：是趋于多样化还是趋于集中化？现在我们想象的是希望人形占据80%，甚至90%，但产业的迭代表明，在具体应用场景驱动下，其形态一定是多样化的。其背后的技术架构也印证了这一点：上游有核心部件、传感器和通用模型，这与传统的机器人，特别是工业机器人不一样的是，出现了供应链中的新玩家如推理芯片、数据模型和电池等。再往上就出现了各个专业的小脑，或是我们所说的垂类模型。再往上，就是在某个行业的头部，或是应用的服务平台。

在此背景下，面对世界模型难以一次找到，算力成本高，且在实际的工厂中或是家庭中都要求系统具备容错性问题。我们提出以“智能定界”作为破题思路：将重复性高、执行繁重或危险，但结果可控的任务归由机器人执行，将那些不容许出错、后果严重的关键任务交由人类负责。最终目标是融合商业运营、本体控制、AI垂类模型与数据域控，构建一个高效的人机共生服务系统。

“定界”将驱动我们对环境、工艺、机器人载体及模型进行全面重塑。其价值在于：一旦明确了边界，我们便能更精准地理解场景、设计高效的专用载体，并利用闭环数据不断对齐现实、迭代模型，最终持续提升整个系统的准确性与可靠性。就像扫地机器人与手术机器人无需共用同一个“大脑”一样，正是不同的“定界”催生了截然不同的模型。

具身智能目前所具备的这种影响力背后，是人们对技术本身所展现的广阔前景抱有了更大的耐心与包容。

当然，具身智能的进步是遵循3个层面发展的。在基础科研层面，它是多学科深度融合的产物，汇聚了材料、数学、人工智能、生化乃至文学艺术等领域的智慧；在产业投资层面，中期的孵化投资多由具备全球视野的高管主导，他们能精准识别技术的稀缺性、高频性及高复制潜力；最终在商业应用层面，众多上市公司为迎接浪潮，主动将传统制造板块拆分，转型为现代制造服务商，并注入创新基因与人才。

由此，诞生了一种新的商业逻辑：一切以运营与服务为牵引。具体而言，是由商业运营与数据服务定义场景需求，再由载体（硬件）去完成设计与制造以满足该需求。在此闭环中，运营方掌握数据，并利用数据选择与训练模型，通过芯片预控和算法迭代，驱动整个系统快速收敛、持续优化。

基于此，应用通过智能定界、商业运营和数据服务来牵引的时候，它是不是就很容易将现有的技术和模型、算力等高效、精准地裁剪和收敛。

在整个推动过程中，中国科技企业的融资路径与西方存在着明显的差异：国内很多都是通过债权融资完成，而西方是通过VC、PE、CVC等股权融资方式。如果我们通过“智能定界”，以商业运营和数据服务为牵引之后，会不会在下一个阶段引入更多的CVC和VC来加速具身智能创业的PMF形成和商业闭环形成？

这一转变显得尤为迫切。当前国内资本市场，IPO排队企业数量居高不下，缺乏硬核技术与清晰商业模式的“简单创新”已难以获得市场认可。因此，对于许多创业公司而言，一条更为现实的出路或许不是独立上市，而是被已上市的公司或大型应用企业收购兼并。

进一步观察，中国正在形成一个由政策、产业与学术界共同驱动的创新生态：政策层面，国家致力于构建开放的创业环境，坚持以创新成果与实际应用作为检验标准；产业层面，企业不仅积极开展基础研究，在国际顶刊上发表一流论文，更通过业务拆分、高管再创业等方式激活组织活力，并与上下游紧密协同；学术界，则呈现出两类并行路径：一是支持具有发散思维的青年人才挑战权威，依托国家重大项目推动原始创新；二是推进具有经济价值与产业前景的攻关项目，通过概念验证、拨转股、耐心资本与孵化器等方式，实现与产业需求的高效对接。

在整个发展过程中，尽管有时候因为未知，因为艰难，因为危险会有焦虑，但有时候又觉得在混沌、动荡与巨变之中，往往蕴藏着产业甚至人才迁跃的机会，而这种迁跃很大的程度上由两大要素推动：一个要素是以人工智能为牵引的科技革命，推动技术从云端到虚实融合，到物理世界，具身智能正是这条路径上的关键一环；第二要素是我国的二元结构，过去40年让年轻人，让自我，让市场，让法治，让开放创造了我们的经济繁荣，再加上一大批互联网、移动互联网上市公司的管理人才和商业思维的外溢，又与我国40年来的工程人才培养相结合，造就了中国独有的优势——工程师红利。还有政府，共产党，始终有一个中华民族伟大复兴的梦想驱动。

设想一下这个“飞轮”，在40年前启动时是如此缓慢，上上下下，跌宕起伏。但一旦“飞轮”转起来，随着人们对中国独特的二元结构、统一大市场、创新优势与制造优势的认知日益深刻，对国家使命的认同愈发坚定，这个飞轮的速度会越转越快，就会发现这个时代又是一个特别让人憧憬的机遇时代。

无论怎样，未来十年还是可期的，模型可期，能源可期，芯片可期，各种应用（无人驾驶、清洁、物流、医疗、工厂、农业、建筑）可期。尽管这些要素将在发展中辩证交替、轮动引领，但我们坚信，未来十年，中国不仅是具身智能浪潮的不可或缺者，更将是从数字世界走向物理世界驱动全球产业变革的主导力量。

谢谢！

来源: 网易科技报道