来源:中国经营报
本报记者 秦枭 北京报道
近日,被称为“AI教母”的李飞飞创立的World Labs首次官宣空间智能模型,World Labs团队展示了他们如何探索3D生成式世界,仅用一张图,即可生成一个3D世界。李飞飞说道:“无论怎样理论化这个想法,都很难用语言描述一张照片或一句话生成3D场景的互动体验。”她强调,大自然中存在着一种视觉与行动之间的良性互动,而空间智能正是这种互动的核心。
多位业内人士在接受《中国经营报》记者采访时表示,从自然语言处理到图像和视频生成,再到空间智能,生成式人工智能在短短两年内正以前所未有的速度认知、理解、模拟并创造出人类所处的物理世界。尽管图片生成3D技术在AR眼镜这一场景上已有实践,但李飞飞发布的“空间智能”模型标志着AI从2D像素平面迈向了完整的3D世界,并且该模型生成的3D世界具有高度的交互性和真实性,用户可以在其中自由移动相机,探索虚拟环境,体验更真实的物理效果和视觉效果。
虽然World Labs发布的空间智能大模型落地场景与应用方面仍存在诸多挑战,但业界相信其未来的潜力。记者在采访中了解到,目前除了World Labs外,国内外的多家科技公司也在空间智能领域开始布局。相信未来竞争将愈发激烈,也将进一步拓展AI技术的边界,同时也会为多个行业带来变革机遇。
迈向空间智能的第一站
World Labs于今年9月13日成立,是一家空间智能AI公司,试图构建大型世界模型(LWM)来感知、生成3D世界并与之交互。李飞飞担任公司CEO。
实际上,早在今年年初便有消息传出,李飞飞创立了一家从事空间智能相关业务的AI初创企业,其将利用类人视觉数据处理技术,让 AI 可以实现高级推理。
根据World Labs的官方网站信息,该公司已经成功募集到超过2.3亿美元的资金。此次融资的领投机构包括硅谷著名的风险投资公司Andreessen Horowitz、NEA以及专注于人工智能的风投基金Radical Ventures。参与投资的其他知名公司有Adobe、AMD以及英伟达等,同时,个人投资者中也不乏重量级人物,包括被誉为“AI教父”的杰弗里·辛顿(Geoffrey Hinton)、特斯拉人工智能和自动驾驶部门(Autopilot)原负责人Andrej Karpathy以及谷歌的首席科学家Jeff Dean。
不过,在星光熠熠下,外界对“空间智能”一直没有统一的定义。在温哥华TED大会的演讲中,李飞飞提到,当前最先进的算法已经能够合理推断图像和文字在三维环境中的呈现方式,并据此做出行动,这种算法所依托的便是所谓的空间智能。
在进一步阐述空间智能这一概念时,她使用了一张极具启发性的图片作为辅助工具:一只猫正伸出爪子,意图将玻璃杯推向桌子的边缘。她随后详尽地解析了这一过程,指出人类大脑具备在极短时间内对玻璃杯的几何构型、它在三维空间中的位置,以及它与桌子、猫和其他物体的相互关系进行综合评估的能力。在此基础上,大脑能够预测接下来可能发生的情境,并采取相应措施来预防潜在的风险。
经过一年时间的努力,李飞飞终于将更“具象”的空间智能展示出来。在World Labs 发布的模型上,用户仅需上传一张图片,系统即可依据图片中的环境信息,自动生成一个相应范围内的3D虚拟世界。用户可以直接在网页端,通过鼠标或键盘操作,轻松地浏览这个3D世界。此外,生成的3D世界具备交互性,用户能够像在游戏里一样,自由地移动相机,探索这个3D世界,包括景深、变焦等操作都可轻松完成。
中国投资协会上市公司投资专业委员会副会长支培元评价道:“‘空间智能’模型的问世,标志着AI在深度学习、计算机视觉领域取得了里程碑式的进步,尤其在3D图形合成、环境映射、目标检测等关键任务上展现出了超越常规的强大效能,预期将掀起VR/AR、交互娱乐、建筑可视化等行业的根本变革。无论是电子商务平台的沉浸式购物体验、房产市场的远程实景导览,抑或影视后期制作的特效创作,还是教育培训领域的虚拟实训基地,皆可成为该技术的用武之地。”
不过,记者在体验过程中注意到,该模型构建的3D场景探索范围有限,一旦移动一小段距离,系统便会提示已触达边界。而且,该模型还会出现“幻觉”,理解不够准确。
World Labs也表示,以上成果还偏早期,他们正在努力提高生成世界的大小和拟真度,也正在试验用户与它们交互的新方式。
世界院士专家联合会执行秘书长、中国民协新质生产委员会秘书长吴高斌指出,尽管李飞飞发布的模型具有巨大潜力,但要实现理想的落地场景仍面临一定困难。首先,在技术层面,模型在生成3D世界的精度和速度上还需进一步提高。其次,在应用层面,如何将这一模型与现有产业相结合,实现商业化落地,仍需克服诸多挑战。
国内已有涉及
实际上,在空间智能领域,李飞飞并不是第一个“吃螃蟹的人”。英伟达、meta等多家公司也有所布局,只不过,它们称之为3D生成。美国当地时间12月4日,谷歌DeepMind发布了大型基础世界模型Genie 2,可通过单张图片或文字描述生成3D场景。
不只是海外,国内的AI厂商也在着手布局空间智能。几乎与World Labs同一时间,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的3D生成模型See3D——See Video, Get 3D。
不同于传统依赖相机参数(pose-condition)的3D生成模型,See3D采用全新的视觉条件(visual-condition)技术,仅依赖视频中的视觉线索,生成相机方向可控且几何一致的多视角图像。
在今年11月初,有传闻指出阿里巴巴正在测试一款名为“Animode”的人工智能视频创作工具。根据官方的描述,该工具是一款专业的3D软件,旨在创造栩栩如生的二次元角色和具有电影大片般效果的视觉内容。紧接着在11月5日,腾讯旗下的混元实验室也宣布了其最新研发的MoE模型“混元Large”以及3D生成大模型“Hunyuan3D-1.0”的开源。
然而,在中关村物联网产业联盟副秘书长袁帅看来,World Labs的空间智能模型之所以受到外界的广泛关注和“吹捧”,原因在于其独特的技术优势和广泛的应用前景。该模型不仅支持实时渲染和用户自由控制视角,还具有高度的交互性和场景持久性,为用户提供了更加丰富和真实的体验。此外,该模型还能够适应不同的场景和艺术风格,为创作者提供了更多的创意空间和个性化体验。
支培元表示,相较同类方案,该模型兼具计算效率与图像质量优势,能在保持细节丰富度的基础上,极大程度地压缩处理时间,解决当前三维内容生成的技术难题。兼容主流硬件平台,从移动终端到高性能服务器,确保技术无缝对接,有利于快速市场化部署,支撑多元场景应用。尽管面临技术挑战和商业化落地的难题,但独特的技术优势和广泛的应用前景使其成为业界关注的焦点。随着国内外多家大厂的布局,空间智能领域正迎来一个全新的发展阶段。