雷竞技RAYBET西部世界前传:一个关于机器人自我建模的实验

雷竞技RAYBET1966年,一个简单的符号">"出现在计算机屏幕上。这个被称为"命令提示符"的符号,成为了人类与计算机对话的开端。半个世纪后,当研究人员发现通过精心设计的提示词能够指引AI完成各种任务时,"prompt"成为了人工智能时代最重要的术语之一。

现在,当我们与AI对话,说出的每一句话都是一个prompt。无论是让AI生成一幅画作,写一段代码,还是完成一篇文章,都需要通过prompt来表达我们的想法。这种人类与AI的对话方式,正在悄然改变我们的工作与生活。

这也是《The Prompt》这个栏目的由来。在这里,我们将与AI领域的创业者对话,发掘具有创新力的AI产品,记录技术变革带来的惊喜时刻。我们希望内容本身,也能成为一个prompt,为读者打开思考的空间,在技术浪潮中,找到观察和理解AI的支点。

在哥伦比亚大学的一间实验室里,一台机器人正对着镜子练习表情:皱眉、微笑、歪头。摄像头是它的眼睛,神经网络构筑它的控制中枢。没有人告诉它什么叫“悲伤”,也没有人为它设计“悲伤”应该是皱眉还是闭眼。它只是在无声的自我凝视中,把表情和电机指令关联起来,学会像人一样做出表情。

这是一场人形机器人自监督学习表情的实验。主持这场实验的是胡宇航。他今年28岁,刚从哥伦比亚大学博士毕业,一年多前创立了首形科技,专注于做“人脸机器人”。这个方向几乎无人涉足。过去一年,胡宇航见了100多个投资人,多数听了他的构想,摇摇头就走了。

他的构想是反共识的。“我觉得人形机器人更适合做情绪化产品,至少在未来5年内,它不是一个能够创造高效生产力的产品。人形机器人是服务型需求,不是工业集群或者生产力的需求。”

作为F(Feeling导向)人,他认可情绪陪伴的价值,会用“物化”去形容把机器人当作工具的行为。在他的规划里,将来能造一个沉浸式的《西部世界》,NPC全部都是机器人。

这是一些听起来抽象又理想化的描述,但胡宇航强调说,自己不是一个理想主义者,他坚定地相信人脸机器人能够商业化。

在胡宇航看来,在大模型全面推动语言交互跃升的时代,真正决定机器人是否能被广泛接纳的,并不是“会说话”,而是“会共情”。他认为,相比于语音助手或纯数字界面,一个具备真实面部表情、能读懂并回应人类情绪的类人机器人,天然具备情绪连接与场景沉浸的优势。这种“类人共情价值”(Humanoid Empathy Value)正在成为机器人商业化的一个突破口。

因此,首形科技选择了一条更具现实落地性的路径:优先完成交互类场景中的商业闭环,即通过打造具备自然表情、实时反应和主动交互能力的类人机器人,在情绪价值密度高的空间——如线下体验馆、品牌展厅、主题乐园、IP互动空间等——快速构建人与机器之间的情感关系与价值感知。今年年底往后,他们会从内部员工开始做测试,他们将是首形科技的第一批用户。

期待这些产品的受众不少。2022年开始,为了给两点一线的留学生活留下一点痕迹,胡宇航以“U航”为名在社交平台发布Vlog,最开始主要拍每天吃什么,后来有了一些科研相关内容。今年5月,胡宇航上传了几条新一代产品的Demo视频,后台播放量上亿,收获了一批“电子股东”。这让他感到很意外,也更加坚定了做人脸机器人的想法。

继去年11月完成天使轮融资,首形科技在近日完成了新一轮融资,目前不到20人的团队将在年底扩充到四五十人。他们现在会给一些人形机器人厂商提供零部件和技术支持,但更多的精力在技术和产品研发上。

● 胡宇航和首形科技新一代机器人对视。图源:受访者提供

以下是镜相工作室与胡宇航的对话:

跨过恐怖谷效应

镜相工作室:5月中旬的时候,你在自媒体账号发了新一代产品的Demo视频,人脸已经精细到毛孔了,是有血色的。

胡宇航:对,那个脸的外观是我雕的。我个人的感受是,当我真的跟她对视的时候,她给我传达表情,我真的会有一些错觉和震撼,甚至有一种她受伤我会心疼的感觉。我希望把这个东西尽快呈现出来给大家看,让大家感受我感受到的,相信我相信的。

镜相工作室:网友的关注和讨论里,有没有一些让你印象比较深刻的?

胡宇航:还挺出乎我意料的是,其实大家并没有多么排斥机器人有“脸”这件事,反而是之前会有投资人说这会不会有恐怖谷效应。但真正看到的用户反馈是,他们还挺想要一个桌面级的陪伴机器人,或者是一个有“脸”的机器人。当然这里面也有幸存者偏差,可能不喜欢的人就直接把视频划走了。

镜相工作室:投资人提到的恐怖谷效应应当是你们要解决的一个关键问题。

胡宇航:我们已经深度剖析了这件事。我认为它分为静态和动态下的恐怖谷效应。静态的恐怖谷应该是完全被解决了,像蜡像啊,雕塑啊,手办啊,没有人觉得恐怖,因为你做得很精细。现在是要用AI控制它动起来,让它动起来更自然、更逼真,这就是算法的问题。我们的算法有优势,我们就用算法来做这件事。

镜相工作室:算法优势具体指什么?

胡宇航:主要是两个模型,一个是怎么做表情,一个是做什么样的表情。

之前大家都是通过显式的方程去设计脸,或者是绑定人脸坐标系,把人脸上的landmarks映射到机器人上。有很成熟的人脸识别算法可以识别面部运动,然后直接映射成电机指令。但用这种方式做出来的表情会显得非常呆板、僵硬,容易出现恐怖谷效应。

我们现在希望训练出一个机器人自己的表情运动空间,也就是让它通过深度学习和神经网络来自主“理解”和“表达”表情。这种方式的好处是,整个模型是可微的,也就是说它可以被端到端训练,表情变化也更加平滑、连续。它能与大模型和多模态系统协同工作,为机器人实现更高级、更自然的情感交互打下基础。

镜相工作室:所以你们让机器人对着镜子自监督学习表情。

胡宇航:对,之前没有人这么干。这样的效果非常好,而且是直接采集到脸部的所有动作指令。

让机器人对着镜子学习

镜相工作室:机器人对着镜子自监督学习表情,具体是怎么去学习的?

胡宇航:机器人照镜子的时候,它眼睛里的摄像头可以看到镜子中的表情,它大概能知道在某个电机指令下它的表情是什么样子的。这个过程有点像我们对着镜子练习舞蹈一样。机器人照镜子,收集电机指令和对应的脸部表情,再把这两组数据交给AI模型去训练,AI模型就会知道,当我要做某个表情的时候,我的电机指令是多少。

● 机器人正对镜自监督学习表情。图源:受访者社交平台

镜相工作室:表情模型的自监督和语言模型的自监督,两者的区别是什么?

胡宇航:表情模型的自监督学习与语言模型的核心区别,在于它们依赖的模态和监督信号不同。语言模型是在语言内部做预测,例如BERT或GPT通过掩码预测或下一个词预测,从大量文本中学习词语间的上下文关系。而表情模型的自监督学习则是跨模态进行学习,主要利用人说话的视频,自动对齐语音信号与面部表情,学习它们之间的自然对应关系。

也就是说,表情模型的监督信号来自于语音和表情在时间上的共现,不是人为标签,而是自然同步。通过这种方式,模型能够理解语音、语义与表情之间的关联,从而在不同语境下生成自然、连续的面部表情。这种训练过程更像是“感知和表达”的建模,而不是简单的情绪分类。

镜相工作室:人的情绪是抽象的,哪怕是人与人之间交流,也能难去准确感知。机器人是怎么做到的?

胡宇航:传统的情绪识别方法往往依赖情绪分类标签,如喜、怒、哀、乐,但这类标签在现实中模糊而主观,难以覆盖情绪的复杂变化。相比之下,我们更倾向于将表情作为嵌入空间中的连续表示进行建模,而不是硬分类。

这种方式下,模型无需“理解”情绪的具体标签,而是在潜在空间中学会表达和生成表情,就像语言模型生成token一样,输出一个对语境和声音感知自然反应的表情表现。

就像我们不需要解释每一个语言embedding(向量表示)的含义,也无需向机器人解释每一个表情embedding的情绪意义。只要这些embedding能在语境中输出自然的表情表现,就完成了我们对“情绪”建模的目标。

镜相工作室:那机器人怎么样去输出人类可以理解的表情?

胡宇航:这时候你就需要有语境语义的绑定,跟对话内容中人的表情和声音信号去做对齐。我们日常中有海量的视频数据,大家在说话的时候,表情、眼神、声音和文字内容都是高度同步的,这些数据可以用来做模型的预训练,让模型了解到每个audio和表情之间的关系,或者是每个情绪化文本背后带有的表情内容。

“人形机器人适合做情绪化产品”

镜相工作室:为什么会想着聚焦情绪感知,做人脸机器人?

胡宇航:我有个反共识的观点,我觉得人形机器人更适合做情绪化产品,至少在未来5年内,它不是一个能够创造高效生产力的产品。最合适的、商业闭环能跑通的是交互场景,提供情绪价值、服务价值的场景。或者说,我觉得人形机器人是服务型需求,不是工业集群或者生产力的需求。

镜相工作室:这种商业化的路径选择在当下有点逆向而行的意思。

胡宇航:如果你定位这件事是对的,那它什么时候商业化,什么时候去做开源,什么时候去培育生态,这些事是要跟行业深度绑定的。今天工业领域的生产自动化已经非常内卷的情况下,你还要用人形机器人去打内卷需求,这个逻辑上就不对,你肯定要结合产业方去感受发展的节奏。

做人脸机器人这件事其实是我一个人决定的。大部分人,包括实验室里的师兄弟都会犹豫或者质疑这件事。有太多人来到我的实验室,看到我的工作,就会给我个大大的问号,说为啥要用脸,这太恐怖了,你在搞什么?甚至之前展会的时候,有一个外国的小孩哥过来说,你做这个东西就是为了恐吓小孩。人脸这个品类确实需要一个循序渐进的过程,慢慢地让大家觉得这个东西OK。话说回来,算法其实还是最重要的。

镜相工作室:什么样的经历促使你坚定地选择做人脸机器人,去提供情绪价值?

胡宇航:我自己做过各种各样的机器人,桌面级的双足机器人、四足机器人、机械臂等等,这些品类我基本都做过。今天大家在讨论,如何用AI大模型让机器人完成质的飞跃,提出simulation(仿真)。实际接触simulation的工作后,我发现simulation其实是一个很糟糕的东西,它和真实场景有一个比较大的gap,sim2real gap(仿真世界和真实物理世界的差异/从仿真到现实的迁移鸿沟)。你不能说,那行,我们做domain randomization(领域随机化,指在仿真训练中,刻意加入各种“不确定性”,让模型学会更有韧性地应对“看不见的现实世界”),把真实世界场景作为仿真世界场景的一个子集,然后指望我们的模型在现实中也能拥有很强的鲁棒性(指的是一个系统在面对干扰、变化或不确定性时,仍能稳定运行、保持性能的能力)并成功部署。

现实情况是,你需要一个非常大的训练数据量,并且即使如此,模型也很难完全覆盖现实世界的distribution(情况、状态、数据分布)。我觉得物理世界是一个混沌的世界,你要用物理仿真器完成这个子集的收纳是很困难的。而今天的人形机器人连一些基础任务都做不好,在这种情况下,你让他泛化没什么意义。

所以我觉得今天去做生产力的泛化,倒不如先做好交互类的商业化闭环。现在在交互上完成快速变现,跑通机器人控制和大模型之间的交互机制,然后再去慢慢迁移到其他的部分。所以我们选择从“头”做。

当然我自己是非常看好机器人的,只不过在这条路径上面,我们不希望盲目摸索,而是把它先简化到脸,从脸开始做,从交互开始做。

镜相工作室:在商业化落地方面有没有一些设想?

胡宇航:我们早期会做用户拆开就能够体验的消费级、桌面级产品,做体验馆,但大规模落地也是在两年后了。现在会给一些对人脸感兴趣的人形机器人厂商提供零部件和技术支持。

最终我们希望打造一个沉浸式的西部世界,里面的NPC都是机器人,我们认为这里面的技术栈还是比较容易解决的。因为西部世界是一个局部约束的场景。人类生活的场景是一个完全动态发展的场景,对模型的要求非常高,人形机器人要进家庭是非常难的事情;进工厂是很简单的事情,现在已经实现了。像西部世界这种区域场景,我们觉得是可以去提出解决方案的。

镜相工作室:你们的商业化路径和目标很清晰。一些机器人公司可能会更倾向于讲述技术突破方面的故事。

胡宇航:我觉得有时候你把一个问题讲得很高大上,或者讲得很抽象,过于让人难以理解的时候,你其实是有问题的。

卖给F人

镜相工作室:目标用户是一群什么样的人?

胡宇航:我觉得是能够理解情绪陪伴是生活中很重要的东西的人。我不会具体去讲是哪个领域的人。很多人无法理解情绪陪伴是个需求。我是个F人,我觉得情绪陪伴在整个人生中都是很重要的。你在人世间,你不是一台机器,你也不是工具,你是一个能够感受、理解人生百态,和人产生情感联结的体验者。所以我觉得我的目标用户就是我这种F人。

镜相工作室:这几年做AI情绪陪伴类产品的公司很多,软件硬件都有。你觉得这类产品之间的壁垒是什么?要怎么打出差异化?

胡宇航:真正让你和AI产生情感联结的点在于,你相信这不是机器。如果你早期带入的定位是,它是一个聊天工具的话,你很难跟它有长期的情感绑定。真正需要解决的问题是,让用户觉得这东西不是一个机器,能够有一种沉浸的体验感。这也是我们要做情绪理解和情绪表达的原因。

镜相工作室:目前业内在情绪感知上面大量投入的公司多吗?

胡宇航:挺少的。

镜相工作室:你是因为笃定情绪陪伴价值所以在这方面加大投入?

胡宇航:我觉得跟团队的小伙伴也有关系。如果身边都是一群直男,他们对可爱类的或者机甲类的最感兴趣,觉得这种能够让他们居高临下地对待。我觉得如果你居高临下地看待每个AI陪伴产品,你无法跟它建立信任或长期的情感联结,你会认为AI是你的玩物,是你的工具,那你物化了这个产品后,你对情绪的表达和理解在人性的这一侧就会缺失、会失真。我觉得我们这个品类是一个天花板很高也很难但是正确的一件事。

镜相工作室:你们是怎么去量化AI情感陪伴机器人的市场规模的?

胡宇航:我们没有单独去看这个市场的规模,行业内也没有一个准确的数字。像泡泡玛特这样的公司,可以看到它有一个静态的价值,如果你往更深的层次去看,它会有更高的市场空间。

不是理想主义者

镜相工作室:现在团队有多少人?

胡宇航:15到20人。

镜相工作室:这么少的人要去完成一件少有人做过的事还是挺难的。

胡宇航:我们不怕事情难,我们是想做一些我们觉得有价值的事。我们会不断扩大团队。我们最新的杭州的算法团队也开始在招人,预计到年底团队规模扩大到四五十人。

镜相工作室:最近是不是有很多投资人找你?

胡宇航:在国内见了很多,一年下来大概见了有一百多个,但相信我们可以做商业化落地的还是不多。

镜相工作室:他们普遍的疑问是什么?

胡宇航:总觉得这东西没啥必要。他们还是以机器人是工具的角度来思考这件事的。他们会想知道你这个表情机器人接下来是不是一个什么工具,能够有刚需,我觉得这个事跟我们的初衷太不一致了。

镜相工作室:你觉得现在的投资人更多是对项目商业化的期待,还是对你的期待?

胡宇航:投人的比较多。机构可能觉得我一个人又做市场,又做科研,又做产品,同时又管理公司,还做自媒体,投人的逻辑在他们内部更好去推动。

镜相工作室:这好像是目前人形机器人行业一个普遍的投资逻辑。

胡宇航:因为今天没办法去量化这个事儿,尤其是技术导向的公司。大家都在说我要解决一个什么问题,但你真的开卖了吗?你的毛利率是多少?你的客户留存率是多少?没有一个量化指标的情况下,投资机构内部没办法去判断谁优谁劣,那我就先投人。

镜相工作室:现在普遍的认知是,人形机器人距离商业化还有一段时间。在当下的阶段,是不是需要一点儿理想主义去支撑做这些事?

胡宇航:情况有点复杂,什么样的人都有。但我不是一个理想主义者,我父母都是商人。如果我是理想主义者,我在学校干就完了,我就待在象牙塔里。我是觉得它是能够创造真实社会价值的。

镜相工作室:为了能够尽早实现商业化,你现在的工作节奏是什么样子的?

胡宇航:我每天睡7个小时,其他的时间都可以工作。

镜相工作室:目前在攻克一些什么难题?

胡宇航:人类情绪在不同人种的脸上表现出的形状还是不太一样,这是我们现在要去解决的问题。我们找到的切入点就是先只做亚洲市场。因为亚洲市场非常大,相对来说审美也比较趋同。

 
雷竞技RAYBET从手机链到汽车链,深圳领益智造正式杀入“人形机器人链”

雷竞技RAYBET6月26日,领益智造(002600.SZ)正式宣布进入机器人领域 ,并对外阐释公司在机器人业务上的产业定位 、核心优势、组装产线与产品,以及机器人应用场景落地开发的成果。

“公司将以消费电子等现有业务为基础,通过业务拓展提升能力,为机器人赛道的发展提供支撑。机器人业务将成为公司新的增长曲线”,领益智造董事长曾芳勤在接受界面新闻在内的采访时提到。

根据介绍,领益智造的目标是成为全球TOP 3的具身智能硬件制造商。公司对机器人业务的定位是“三位一体”的具身智能:一,专注核心零部件、总成研发设计;二,全方位硬件服务;三,为机器人提供完备的工业应用场景落地开发。

其中,在核心零部件、总成研发设计方面,领益智造对具身智能硬件业务做出了相应的规划,将推出零部件加工、组装,丝杠、减速器、关节、整机硬件ODM等一站式服务的核心零部件、模组服务,产品矩阵形成“百货市场”,并实现综合降本可达50%以上的系统性、全链路的“瘦身中心”。

领益智造副总裁、机器人业务负责人杨新宇表示,公司将在制造优势基础上,应用到具身智能业务,联动上下游产业链,形成生态。

6月18日,领益智造公告称,拟变更部分募集资金用途,新增募投项目“人形机器人关键零部件及整机代工升级项目”,拟投入募集资金5000万元。

这次方向确定,标志着领益智造在手机产业链、汽车产业链之后,正式进入“机器人产业链”。

在人形机器人产业加速发展的当下,产能不足已成为制约行业规模化落地的核心瓶颈。除此之外,领益智造管理层表示,目前行业远未实现标品化。而由于行业尚未标品化,导致内耗严重 —非标准化产品需反复进行设计与生产投入。

领益智造高级副总裁蒋萍琴认为,当前人形机器人产业相当于智能手机发展初期,未来市场空间可达十万亿规模。公司凭借工艺制程、自动化积累及全球化布局,有望在工业生产领域率先实现落地,如货物搬运、精密电子组装等场景。

据记者了解,目前,领益智造已有多条滚柱丝杆、空心杯电机、减速器、灵巧手结构件产线及核心零部件组装产线,并为客户提供从“底盘组装”、“升降模组与腰部组装”、“双臂组装”、“夹爪与头部组装”、“电气组装”、“标定”、“性能与疲劳测试”,到“外壳组装与打包”的完整整机组装服务。

公司的灵巧手组装线也已实现量产。同时,公司已为多家具身智能企业提供了多款机器人的应用落地开发和整机组装服务。

曾芳勤表示,消费电子与机器人领域在制造需求层面存在显著共性:二者均对制造精密度、一致性有严格要求,且需构建大批量生产的能力与体系化系统。在客户合作方面,公司坚持多元化,不会将业务重心单一押注于某一家客户。

谈及机器人业务的规模化节点,她指出不同模组的规模化标准存在差异,通常年产30万个以上即可实现规模化运营。

据了解,领益智造已与国创中心签署战略合作协议,近期,双方已就意向订单达成一致,领益已向国创中心发出“百台”意向订单,支撑领益机器人“双百”计划的同时,双方共同推进人形机器人规模化场景落地应用能力,并由领益为国创中心机器人提供关键零部件。此外,领益智造年内还与智元新创、强脑科技、越疆科技等具身智能客户建立合作。

曾芳勤还提到,公司以“长跑思维”机器人赛道。作为全球硬件制造领域的领军企业,领益智造已成功参与手机、新能源汽车等十万亿级赛道当中,而机器人产业被视为下一个十万亿级赛道,是公司必须跟进的。

作为中国大陆首批跻身苹果供应链的企业,领益智造早在2009年就凭借Mac零部件供应正式成为苹果供应商。此后持续拓展产品矩阵,如今已覆盖iPhone、iPad、Apple Watch、Apple Vision Pro、Air Pods等全系列终端,为苹果提供几千种模组件及核心零部件。

而自2019年起,领益智造开始将在消费电子行业积累的精密制造能力向新赛道迁移,如切入新能源汽车电池结构件业务。其中,2021年领益智造花了3800万元收购浙江锦泰电子有限公司95%股权,成功切入新能源汽车领域。

时隔4年,领益智造再次启动汽车供应链并购动作。今年4月21日,领益智造公告拟收购江苏科达斯特恩汽车科技股份有限公司的相关草案。本次交易完成后,领益智造汽车业务将实现从Tier2向Tier1供应商的转型升级。可见,在领益智造的未来业务中,消费电子、汽车、机器人三大板块将构建“三足鼎立”的发展格局。

“机器人业务的发展,将带动前端原材料领域的发展机会。当前机器人行业存在大量新型原材料需求,部分材料甚至需要企业自主研发。公司的机器人业务在三年之后有很强的可能性能够盈利,但游戏才刚刚开始—正如消费电子业务经历了二十余年的积累,人形机器人赛道同样需要长期投入”,曾芳勤在接受界面新闻记者采访时表示,

雷竞技RAYBET闪电快讯|7月首站开赛,大学生机器人最高赛事ROBOCON即将举办

雷竞技RAYBET「电厂」获悉,全国大学生机器人大赛ROBOCON即将开赛,首站比赛将于7月在江阴市南京理工大学江阴校区开幕,第二站比赛则于8月在深圳市香港中文大学(深圳)举办。

ROBOCON大赛由全国大学生机器人大赛组委会主办,并由中国高等教育学会、中国工程院战略咨询中心担任指导单位。

赛事内容方面,两站比赛均将涵盖“飞身上篮”机器人篮球比赛、足式机器人挑战赛和机器人排球挑战赛。两站比赛均会开放三天时间,供各参赛队适应场地及训练。

首站比赛参赛队伍来自北方工业大学、北华航天工业学院、北京航空航天大学等共计78所院校,其中有56支队伍参与机器人篮球比赛、104支队伍参与足式机器人比赛、25支队伍参与机器人排球比赛。

ROBOCON大赛始办于2002年,是国内大学生赛事中最具技术挑战性和影响力的比赛之一,过往许多参赛者如今已成为国内机器人市场中的中坚力量。

比如大疆创始人汪滔在香港科技大学就读期间,曾于2004、2005年连续参赛ROBOCON,2012年起大疆亦开始资助ROBOCON比赛。

此外,轮式机器人企业本末科技创始人张笛、机器人底盘制造商松灵机器人创始人魏基栋等人,都曾是ROBOCON参赛者的一员。宇树科技创始人王兴兴,也曾与个人社交平台表达对ROBOCON的关注。

雷竞技RAYBET美联新材:公司暂时没有布局peek材料,未直接与机器人公司开展合作

雷竞技RAYBET美联新材6月27日在互动平台表示,公司暂时没有布局peek材料,未直接与机器人公司开展合作。