近期,谷歌旗下的DeepMind团队在机器人技术领域取得了重大突破。其最新研发的AI模型Genie 2,在构建可交互3D环境及加速机器人学习方面展现了前所未有的潜力。
DeepMind的联合创始人兼首席执行官Demis Hassabis,在一档知名节目中亲自展示了这一创新技术。他强调,Genie 2能够从单一的静态图像中,生成一个完整且可探索的3D虚拟世界,为AI代理和机器人提供了一个极为逼真的模拟环境。
在演示过程中,DeepMind的研究科学家Jack Parker-Holder选取了一张加州瀑布顶部的照片。通过Genie 2的处理,这张照片被转化为了一个类似第一人称视角的视频游戏场景。用户或AI代理可以在这个虚拟环境中自由移动,不仅能够围绕瀑布顶部的水池行走,还能够探索原始照片中并未呈现的区域。
Hassabis指出,Genie 2的“世界模型”具备动态生成环境的能力,能够模拟现实世界的物理特性。这一特性使得Genie 2不仅在游戏和视频生成等娱乐领域具有广泛应用前景,更重要的是,它为AI和机器人的训练提供了一个高效且低成本的平台。
传统的机器人数据采集过程复杂且成本高昂,导致数据量有限且收集速度缓慢。而Genie 2所生成的模拟环境,能够产生近乎无限的数据量。这意味着,机器人可以在虚拟世界中进行初步的学习,然后再通过少量的现实世界数据进行微调,从而大幅提高了训练效率。
在另一个演示中,一个由AI控制的骑士角色在Genie 2生成的3D环境中自主完成了任务,如从多个门廊中选择正确的路径并爬上楼梯。Hassabis表示,这种技术将使机器人能够在模拟环境中学习复杂的任务,如导航、物体交互和决策制定,从而显著减少对现实世界数据的依赖。
Hassabis还透露,DeepMind正在探索利用谷歌地图、谷歌地球和街景视图等地理数据,进一步增强AI对现实世界的理解能力。这些数据将为AI提供丰富的现实世界背景,有助于机器人更好地适应真实环境。
Genie 2还能够将静态图像(如街景照片或个人度假照片)转化为交互式的3D场景。这一功能为机器人训练和用户体验带来了全新的可能性。
随着技术的不断发展,Hassabis预计,未来版本的Genie模型将能够创建更加多样化、复杂的虚拟世界。这将为机器人学习新技能、执行任务以及与人类和物体进行交互提供更加全面的支持。这一技术的突破,不仅有望推动机器人开发领域的革新,还可能在工业、医疗和探索等多个领域推动智能化应用的广泛普及。