宇树科技王兴兴:具身智能GPT时刻仍需2-3年到来,泛化能力不足是核心挑战
出品|派财经原创(ID:paicj314)
文:李唐
3月17日,在2026亚布力论坛上,宇树科技创始人王兴兴发表主题演讲。演讲中,王兴兴抛出了两项关键判断:
一方面,他预计到今年年中的时候,全球尤其中国人形机器人应该会跑得比人还快,比博尔特更快一些,百米冲刺的速度应该可以跑到十秒以内;
另一方面,他认为具身智能行业距离真正的“GPT 时刻”仍需 2-3 年,只有当机器人能在80%陌生场景中仅凭语言指令完成80%任务时,赛道才会迎来爆发式增长。
他同时指出,运动能力是机器人落地真实场景的前提,而模型泛化能力、数据效率与强化学习规模效应,仍是制约行业跨越临界点的核心瓶颈。
以下是公司研究室对王兴兴演讲内容的整理,在不改变原意的前提下,进行了一定程度的增删修改:
初心与历程
十年磨一剑
宇树科技过去10年,一直专注于高性能足式和人形机器人的自主研发,从足式机器人到人形机器人,从实验室研发到行业实际应用,我们始终在做一件事情,就是让机器人从能走到真正成为智能生产力的一部分,这也和我们长期专注的发展理念相契合。
宇树科技是2016年成立的,到现在差不多快10年的时间。我本人最早接触机器人研发,是在上海读硕士期间,当时做的XDog这款机器人,开创了目前全球范围内低成本、高性能足式机器人技术方案的先河。
其实我接触人形机器人研发的时间更早,2009年我刚上大一,第一个寒假就做了一款小的双足机器人,那也是我做的最早的一款机器人,当时只花了200元人民币,算下来我在机器人行业其实已经做了十几年的时间。
产品突破
从小巧灵活到工业级应用
我们2023年开始正式研发仿生人形机器人,2024年发布的第二代人形机器人,在2024到2025年取得了全球非常瞩目的成绩,这款机器人也是目前全球出货量最多的人形机器人,去年加起来在全球范围大概出货了5000台。
这台机器人最大的特点就是体型相对小巧,大概只有1.3米高,同时更加轻量化,关节自由度和灵活性都非常好,不管是中国还是海外市场,大家能看到的、大部分客户在使用的人形机器人,基本上都是我们这款产品。
去年我们还发布了新一代的机器狗,这款是面向工业级应用的,相比我们之前发布的产品,这款属于中型款,具备防尘防水的特性,续航时间也非常长,充满电空载续航可以达到20几千米,硬指标方面处于全球领先水平。
同时我们还发布了新一代更小巧的人形机器人,目前售价大概3万元人民币左右,在全球市场上非常有竞争力。
去年我们还发布了新一代的人形机器人H2,这款机器人尺寸更大,大概1.8米高。
目前市场上出货量高、大家用得比较多的还是我们那款小的人形机器人,因为它用起来更方便、更安全,但在工业场合,甚至未来的农业场景中,机器人需要做一些体力劳动,这就对机器人的尺寸和手臂力量有了更高的要求,H2就是针对这类场景研发的。
当然更大的机器人也有个小缺点,因为力气比较大,看起来会有点吓人,所以大家看到1.7米或者1.8米的人形机器人,最好还是保持两到3米的安全距离。
生态理念
让技术真正普及
我们始终相信,想要让一项技术真正普及起来,就像当年的手机和电脑一样,最大的挑战之一就是要让更多人用起来、更多人采购,让更多的开发者参与进来,大家共同努力把这个行业做好。
大家都知道,二十几年前个人电脑刚出来的时候,对普通老百姓来说其实没什么实际用处,最早大家用电脑也大多是打游戏。
目前的人形机器人其实也处于这个相对早期的阶段,现在就让它在家庭或工厂里大规模应用还不太现实,但目前不管是娱乐场景还是一些商业场景,人形机器人其实已经开始落地使用了。
我们的目标也很简单明确,就是希望全世界的开发者都能在我们的平台上参与研发,让每年、每个月都有更多的应用和软件被开发出来,这样机器人的能力、功能会越来越强,受众也会越来越多,整个行业的规模体量也能快速发展。
运动能力突破
从走路到功夫
去年8月份,我们参加了北京人形机器人运动会,这也是全球首届人形机器人运动会,我们拿下了1500米、400米、4×100米障碍赛的冠军,是全场获得冠军数和总奖牌数最多的公司。
当时参赛的这款机器人最快速度能达到五点几米每秒,虽然100米还跑不过人类,但1500米能跑到六分多钟,基本上比我们公司所有人都跑得快。
我预计再过几个月到年中,全球尤其是中国的人形机器人,百米冲刺速度就能超过人类,甚至比博尔特更快一些,跑进10秒以内,这是我觉得今年很快就能实现的事。
另外,去年我们也完成了机器人软件的诸多升级,实现了机器人在任意动作情况下的自主恢复,我始终认为,大规模的机器人普及,必然要求它具备极高的稳定性,如果一台机器人连走路、跳舞都做不好,就根本不可能实现大规模应用。
所以我们在机器人稳定性上做了大量的完善工作,比如机器人在做各种动作时摔倒后能自己恢复,这也是我们的机器人能登上春晚,完成20几台机器人全自动表演的原因,春晚的表演对机器人的稳定性和动作一致性要求非常高,而我们的技术正好能满足这个要求。
现在我们的机器人还能通过数据采集和AI训练,学会人类能做的各种动作,大家如果有空的话,也可以去我们的展区看看更多机器人的展示。
最近几年我们在机器人AI领域,尤其是具身强化领域取得了比较明显的进步:2023年的时候,机器人大概只能简单走路、简单跑一下;2024年就能完成一些相对复杂的舞蹈动作;2025年最大的升级就是实现了功夫模式,机器人可以打各种功夫。
理论上来说,现在我们1.8米的人形机器人,普通人其实已经打不过了,能看到人形机器人的技术进步非常显著,今年还会有更多的精彩成果和大家见面。
春晚亮相
科技与文化的全球传播
今年春晚我们的机器人舞蹈节目也取得了很好的成绩,节目里我们让机器人复刻了很多复杂的动作,比如单腿的连续空翻、两步上墙,这些动作对机器人的硬件和稳定性要求都非常高。
这个节目不仅在国内备受瞩目,在海外的关注度也非常高,那一周海外的各类网站基本都被这个节目刷屏,很多国家的官方电视台也做了相关报道。
我们在义乌分会场的节目还结合了中国的传统文化形象,这个机器人功夫节目,不只是科技的呈现,更多的是中国传统文化的呈现,中国功夫在海外有很高的认可度,所以这个节目也是中国文化出海的一个很好的载体。
为了登上春晚这个舞台,我们对机器人也做了很多改进:比如在机器人头部加装了128线的3D激光雷达,提升了机器人在复杂场景下的定位能力;训练了预训练的RL模型,让机器人的各种动作能实现复杂的衔接。
目前市面上其他厂家的AI训练模型,动作是不能随意切换的,机器人在做一个动作时没法中途暂停,必须把动作做完,但我们目前的算法可以实现动作中途直接暂停,暂停后还能切换到任何动作,大幅提升了动作组合的灵活性,我们还开发了机器人全身的协调能力。
还有一个很有趣的点,我们为了春晚节目开发了集群定位和跑位的算法。
之前2025年初春晚的机器人表演,机器人是慢慢走上来的,视觉效果不够好,所以这次我们做了跑位算法,让机器人在变队形的时候可以跑步上去,让动作的衔接更自然,而且这个视频是没有加速的,机器人的走位速度很快,还能变换各种队形。
全身遥操作系统
数据采集与远程操控
前段时间我们还开发了一款更小巧的机器人机构,基本上我们每年都会推出一两款新产品。
去年下半年我们还开发了全身遥操作系统,之前机器人的很多表演,包括武术动作,都是提前预训练的,先采集人的动作再进行AI训练,和舞蹈节目一样是提前编排好的,动作不能随时变化,而这套全身遥操作系统可以实现动作的实时变化,人在做什么动作,机器人就能同步做什么动作。
这个技术有两个非常实用的功能:第一个是能实现人形机器人大规模的数据采集,现在的AI都是靠数据驱动的,数据的质量和数量直接决定了AI的能力,而目前人形机器人的相关数据非常稀缺,通过这套系统,我们可以部署大规模的数据采集。
如果今年年底之前能部署几千台甚至1万台人形机器人,每天采集十个小时的数据,那未来一两年甚至两三年,人形机器人的数据稀缺问题就能得到彻底解决。
第二个实用功能是可以实现机器人的远程操控,比如我在外地,就可以直接控制杭州的一台机器人,这样甚至都不用回公司上班,不过目前这个技术还面临着通信延迟等一些挑战。
工业落地
从试点到自产自造
可能大家觉得我们的机器人更多是出现在表演场景,但实际上过去几年,我们的机器人已经在工业领域做了很多部署和试点落地应用。
比如我们的机器人已经能在自己的工厂里装配机器人的关节电机,我们始终相信,未来当机器人真正实现普及应用时,我们的工厂里会是机器人自己生产自己,这会带来生产力的大幅提升。
过去几年我们还和一些头部的汽车公司展开了合作,不过这个领域目前在全球范围内还都处于试点阶段,因为机器人的工作效率和成功率还面临着不少挑战,目前的AI能力还需要进一步提升。
核心理念
运动能力是干活的前提
我们公司一直贯彻的逻辑就是运动和干活并行推动,因为我们相信运动能力是机器人真正能干活的先决必要条件。
未来人形机器人想要在家庭或者农业场景真正普及应用,连跳舞、打功夫都做不到是不可能的,这就和人类的运动员一样,运动能力越强,干活的能力也会越强,当人形机器人的运动能力足够丰富,能做各种各样的动作时,我们只需要把这些动作组合在一起,机器人就能完成各种工作任务。
行业进步
全球共创的成果
过去一两年,在很多客户的共同努力下,整个人形机器人行业的技术都取得了快速进步,去年全球范围内的人形机器人技术都有显著提升。
我们公司能有这样的进步,很大一部分原因是全世界有非常多的客户,包括一些顶尖的科技公司、实验室和高校,都在使用我们的机器人开发各种软件,英伟达还开源了很多相关软件,这些都推动了整个行业的技术进步,今年行业的技术还会继续快速发展。
在未来,如果真正的AI具身智能达到一个临界点,我们公司的机器人出货量可能会一下子飙升到一年几百万台,这是非常有可能的。
目前行业的发展靠的是全球大家共创的努力,并不是某一家公司的单独贡献,是全球从业者的共同努力,加速了整个人形机器人行业的技术迭代。
仍需2-3年时间
具身智能“GPT时刻”
最近几年,不管是机器人领域还是中国的AI领域,都取得了非常明显的技术进步。
我个人印象比较深的是今年1月份字节跳动发布的Seedance2.0视频生成软件,这款软件的效果非常好,是目前全球最好的视频生成软件,没有之一,在全球范围内遥遥领先。
我相信在未来几年,具身智能的软件也能实现这样的技术突破,但目前来说还差一点火候,想要让具身智能或者机器人迎来属于自己的GPT时刻,还面临着一些挑战,其中最大的挑战就是目前AI模型的泛化能力不够。
具身智能的真正GPT时刻目前还差一点火候,但我觉得也快了。
目前行业里有些人比较乐观,预估18个月就能实现,我可能稍微悲观一点,觉得至少需要两到3年的时间,但这个过程肯定也会非常快。
我个人对具身智能的GPT时刻做了一个简单的定义:未来如果有一天,一个机器人的AI模型,可以在80%左右的陌生场景中,通过语言和文字指令,实现80%的任务,那就差不多达到了具身智能的GPT时刻。
比如说,我把一台人形机器人带到一个它完全没有见过的场景,它也不认识场景里的人,我跟它说"帮忙把这瓶水带给某人"或者"帮忙找一支笔过来",它能完全自主地完成这些任务,不需要提前建图,也不需要提前预设程序,那我觉得就真正实现了具身智能的GPT时刻,整个行业也会迎来真正的爆发期。
技术路线
世界模型与VIA模型
目前整个人形机器人行业在全球范围内非常火热,最近几年也取得了很大的技术进步,但同时也面临着不少的挑战。
目前全球范围内具身智能或者机器人领域的模型进步,主要有两个流派:一个是VIA模型,就是在语言模型或者文字模型的基础上,再把机器人模型加进去;还有一个是世界模型,大家可能也听过,就是通过对世界的预估来建模,再推动机器人的动作实现。
我个人觉得世界模型,包括基于视频生成的世界模型,都是非常有发展可能性的,这也是我们去年开源了基于视频生成的世界模型的原因,我个人非常看好基于视频生成的世界模型的发展。
如果让AI生成模型生成一个机器人在家里干活的视频,当视频的质量足够好时,只要把视频里的动作投射到机器人上,机器人就能完成相应的干活任务,这个想法非常简单直接,但目前还面临着一些挑战,最大的挑战就是视频里的动作和机器人的实际动作没办法很好地对齐和统一,这也是目前全球行业都面临的最大挑战。
一旦视频生成的动作和模型能与机器人实现统一,这个问题就能从根本上解决,机器人计算模型也就基本上可以诞生了。去年我们也开源了一个基于VIA模型的相关技术,目前全球范围内做这个流派的人也更多一点。
核心挑战
泛化能力不足
目前对于机器人来说,如果是提前训练过的一个或几个场景,它的工作成功率基本上能达到100%,但如果换一个陌生场景,成功率就会大幅下跌,所以我们必须提升人形机器人或具身智能的泛化能力。
首先要提高模型的表达能力,如果模型本身的表达能力或者能实现的动作丰富度不够,泛化能力自然也无从谈起。
其次要提高对数据的利用率,语言模型或多模态模型有互联网上的大量数据作为支撑,但机器人领域的相关数据非常稀缺,所以我们要在有限的数据情况下,尽可能提升数据的利用率,这对整个行业都非常有价值。
第三,强化学习的一些泛化效应也需要进一步提升。
为了解决上述的这些问题,最关键的一点还是要全球合作。
现在的AI或者机器人的发展,都不是靠单家公司能实现的,尤其是AI领域,目前都是全球共创的结果。
过去几年大家能看到,AI领域的发展就是这家公司今天做出一点贡献,那家公司明天取得一些突破,所以最关键的还是通过全球合作,共同推动这个产业的进步。
试想一下,在当下的AI和具身智能机器人时代,如果再早个5年或者晚个5年,其实都不会有这么好的发展机会。


公司研究室
派财经
WEMONEY研究室






