全国咨询热线:
12月14日的极客公园IF大会上,群核科技(酷家乐)联合创始人兼董事长黄晓煌作为演讲嘉宾,分享了一个当下AI和具身智能领域都关注的问题:如何让AI数字世界走进物理世界。
“AI可以帮我们叠被子?是1年?2年?还是10年?”演讲开头,黄晓煌以“叠被子困境”为例,指出当前具身智能仍被困在物理世界之“门外”。黄晓煌口中的叠被子困境是指机器人们虽能在语言层面理解指令,却无法支持身体完成物理世界的一个简单互动。不仅是做家务,黄晓煌指出哪怕是经常对着各种屏幕喊“小度小度”或者“小爱同学”聊天的这一代“AI原生娃”,他们现在还只能在虚拟世界里与AI做互动。
首先问大家一个问题:大家认为何时AI可以帮我们叠被子?是1年?2年?还是10年?之前有个段子,大模型来了之后,我们大家可以在家里吟诗作画,AI给我们干家务。但实际却是AI天天在系统里吟诗作画,我们还在天天做家务,这肯定不是我们想的。
我们下一代实际上现在已经变成了一群AI原生娃,就像我女儿刚学会认字,但她已经能够很自然地对着各种屏幕喊“小度小度”或者“小爱同学”聊天。但不管怎么样但不管怎么样,我们得知他们始终跟虚拟人物在做沟通。甚至我们只希望AI帮我们叠一床被子,它都实现不了。
我们要怎样才可以在一定程度上完成我们跟AI在物理世界互动呢?这是今天想跟大家探讨的问题。
前阵子Sora刚刚发布了新版本,之前有个Sora出圈视频里一个篮球在空中飞着飞着就爆炸了,它明显缺少对第一性原理的理解和约束。一旦这种大模型进到机器人脑子里去之后,我们很难来想象这个球飞着飞着爆炸了,在机器人脑子里会作出什么行为。所以我们应该一颗聪明的脑袋,以及一个服从大脑指挥物理身体。
今天的具身智能或者机器人就像陷入一个“叠被子困境”中,所谓“叠被子困境”就是一个叠被子这件三四岁小孩都可以干的事情,但对机器人来说是十分艰难的,特别是它即使学会了叠一条被子,也很难举一反三。
目前的ChatGPT或者大语言模型,它可以很容易地让机器人理解你的指令,或者它的视野里能看出哪一床被子叠好,哪一床被子是没叠好,但却没有很好的方法想象出怎么去叠一床被子。还有一个问题,对于机器人来说,哪怕学会叠了,如果被子换个形状可能就不会叠了。“叠被子困境”只是无数家务里面一个格外的简单的问题,如果我们攻破了这样的一个问题,以后各种各样的家务也用同样的办法能够去攻破,之后机器人就可以真正替我们做家务。
目前机器人的大脑还是数字芯片,它对世界的理解还是个数字世界,但它的身体是在物理世界,所以要训练一个大模型来把物理世界能够准确地映射到数字世界里面去,让机器人能够正确地理解物理世界。
在这过程中,最关键的点是缺海量可交互的三维数据。现在的大语言模型基本是网络上的语料信息、图片、视频等训练出来的,这一些内容无法互动而且不具备物理正确性,它们就是一堆静态的记忆。
而可交互三维数据是群核科技沉淀了十多年的强项。群核科技是一家什么样的公司呢?这是一个很有意思的问题,因为我的朋友经常问我,你原来在美国伊利诺伊大学香槟分校读GPU高性能计算,然后去了英伟达做CUDA,为什么回国做了个3D云设计平台,他们都表示看不懂。但其实在中国创业不能太阳春白雪,活下来才是第一任务。
其实从技术方向上看,我现在做的事情跟当年研究方向并不相违背。做高性能计算其实就两个研究方向:一个是模拟人类的大脑,也就是ChatGPT们在做的;另一个就是模拟物理世界宇宙万物的运作,这是我们正在做的。
但我们在融资的时候才发现,和投资人解释什么是GPU通用计算都非常费劲,更别提什么物理仿线O概念,本着活下去的目标,我们上马了第一个项目:在自建的GPU集群上开发了光学仿真,用来加速装修公司做家装渲染图,包装成”装修O2O“来融资。那时候家装设计的3D渲染图依靠本地渲染器实现,一张图大概需要好几个小时完成,但我们用GPU高性能计算的云端处理方案,实现了10s出图,这是酷家乐的第一代,随后拓展到各行各业。
后来随着中国制造2025,工业4.0的概念的兴起。我们得知物理正确的数据不仅仅可以用来出精美的效果图,还能走到真正物理世界的生产环节里去。群核科技通过物理仿真、数字孪生等技术,可精确对接和协同工厂端的生产线,真正的完成了个性定制的规模化生产。目前已经实现几千家工厂的柔性化、自动化生产。
在这过程中我们见识到了物理正确的三维数据的巨大价值。但是也看见了传统工业机器人的巨大局限性:不够智能,动作完全是固定的。所谓的无人工厂离真正的没有人,还有很大距离,而且柔性生产线生产的内容也有限,换个材料可能就不行。直到我看见了Elon Musk的人型机器人概念,我认为工业4.0的未来是人型机器人组成的工厂。而且人形机器人不但可以在工厂里干活,也可以在办公的地方里干活,在家里服务。而群核科技,将是这些机器人训练的“道场”。
回过头这些年群核科技做的事情,路径虽然有一些曲折,但过程中我们沉淀了很重要的两项能力:海量物理正确的可交互三维数据和空间认知能力。目前我们拥有超过3.2亿3D模型,平均每月活跃访问者达7780万,在全球200多个国家地区落地。
在这个过程中我们也持续地相信,物理正确的数字空间可以在人工智能技术上做工,我们的科研人员也一直在研究空间智能,训练大模型,我们在等待一个机会。
2018年,我们跟帝国理工、美国南加州大学等共同推出了一个空间智能数据集方案interiorNet。这是当时全球最大的室内场景认知深度学习数据集,在学术界也引起了一些反响。
在这篇论文发布不久,我们收到了一封来自硅谷某万亿级美金市值公司的邮件,邮件的内容是他们盼望在空间智能数据及解决方案上跟群核进行合作。几万亿美金的大公司找一家勇于探索商业模式的公司合作空间智能,当时我们的团队都以为这是一封诈骗邮件,几经验证才发现是真的。我们在合作过程中发现其实这一些企业都遇到了同样的问题:当它们解决了算力、算法问题之后,他们都非常缺物理正确的可交互三维数据。
这两年随着具身智能的爆发式增长,以及空间智能概念的火热,我们跟具身智能、AIGC、XR类的头部公司达成了合作。我觉得我们的新机会来了,时代又一次告诉我们该迈向下一步。
为什么硅谷的科技巨头要漂洋过海找中国公司来合作空间智能呢?具身智能有四大要素要解决:算法、算力、数据、机器人硬件。目前算法是百花争鸣的状态,算力层面英伟达包括国内地平线等公司都在快速解决。机器人硬件方面中国更是独霸全球。目前来说全世界都面临的难题就是给机器人、AI用来训练的可交互三维数据。
目前训练的方式分两种。第一种是真实世界训练, 比如standford 大学的mobile aloha, 通过模仿学习,学习人的行为,使机器人学会根据指令做出相映的行为。另一个方向,也是一直以来学术界希望做到的一件事情就是, 将机器人从真实环境中的数据采集和训练迁移到仿真环境中,李飞飞的文章也是这个逻辑,因为只有这样的训练方式才能让机器人真正在海量空间里做物理训练,从而有足够多的适应性。
相比真实的训练环境,仿真训练具有无可比拟的巨大优势。包括成本优势、数据生成效率优势。因为物理世界里面,时空是确定的,但是在数字世界里面,时间是可以被压缩的,线万天才能跑完的数据,数字世界里1天就可以跑完。第三,多样性。假设有一天要让机器人去火星上干活,我们没办法先把一堆设备送到火星上让机器人先训练一遍再干活。第四,可泛化性,也就是举一反三的能力。
群核科技的核心优势是什么?首先群核目前拥有全球最大的室内场景认知数据集,通过泛化能力保证合成数据的丰富度和物理正确性。我们也用这一些数据训练了多模态CAD大模型,它可以阅读人类的CAD文件、图片、手绘等,然后把这一些内容再转换成物理正确的空间场景。群核科技也自建了近1万台高性能计算服务器,专门用来训练、推理、渲染。
群核希望用物理正确的合成数据来帮助所有具身智能的机器来实现训练。通过群核空间智能平台SpatialVerse的数据处理技术和多模态CAD大模型的空间认知能力,来赋能AI空间智能。除了技术,合成数据还有一项非常大的优势就没有隐私安全问题。前阵子有家全球著名公司在采集物理数据时,不小心把房子主人上厕所的视频给拍了出来,严重侵犯了房子主人的隐私。
这里是一项我们与上海人工智能实验室合作的创新项目。我们为上海AI lab提供了多模态3D数据解决方案。它包括从家庭到商业空间、医疗场景的大规模动态场景生成,以及渲染与物理真实感增强能力、高精度分割标注能力,满足具身机器人在仿真任务过程中,对模型资产实现可交互性的需求。上海人工智能实验室利用SpatialVerse提供的这些能力,开发“浦源·桃源城市级具身智能仿线万级别高质量可交互数据的具身智能仿真世界。
未来具身智能将进入家庭、工厂、商业空间、园区,和未来更多场景中去。这也代表着在物理正确这个维度,具身智能的训练还有很多待突破的部分。
相信大家都不希望一个没有训练过的机器人在家里走来走去,一个300斤重的机器人万一发起疯来,谁都受不了,所以我们得确保它在足够多的空间里训练过,才能够进入到人工作和生活的环境里。
未来是具身智能或者说空间智能的时代,我相信从生产制造到商业空间再到家庭场景,具身智能会充斥到每一处角落。而当开头讲到的“叠被子困境”被解决的那一刻,机器人一定能帮我们解决更多各种各样的问题,我们也将迎来新的智能时代。我也希望群核科技可成为中间重要的推力之一。
湖南衡阳发生一起滑翔伞坠落事故,官方:造成2人死亡,正善后并调查事故原因
实现了吗?林毅夫7年前预测中国最晚2025年成为高收入国家,此后多次强调
美国网友查询“办理中国签证”被推送问卷:你是因为中国六代机而搜索的吗?
掘金横扫老鹰升第四:约基奇23+17+15连场三双刷纪录 威少16+11