首页 > 智能网

谷歌AI在游戏中组队击败人类团队 这一壮举到底有何意义?

来源:智能网
时间:2019-06-05 12:02:46
热度:66

谷歌AI在游戏中组队击败人类团队 这一壮举到底有何意义?听说过“夺旗”吗?这是一个游戏,夏令营时,孩子们会在空地上玩;一些职业视频游戏玩家也会玩。不论是在现实世界玩还是在电脑上玩,

听说过“夺旗”吗?这是一个游戏,夏令营时,孩子们会在空地上玩;一些职业视频游戏玩家也会玩。不论是在现实世界玩还是在电脑上玩,“夺旗”都是一个团队游戏。两队人马对峙,都想夺走对方的旗帜,带回基地,并守卫自己的旗帜。想成为赢家需要团队合作,在防守与反击之间保持协调。

换句话说,夺旗需要高超的人类技巧。伦敦谷歌AI实验室的研究人员向我们证明,机器可以不断学习,掌握游戏,至少在虚拟世界可以做到。

谷歌AI在游戏中组队击败人类团队 这一壮举到底有何意义?

谷歌AI研究人员发表论文称,它们已经开发出一套自动“代理”,在Quake III游戏内,它们可以玩“夺旗”游戏。代理可以组队对抗人类玩家,或者与代理团队对决。

谷歌旗下实验室DeepMind的研究人员Wojciech Czarnecki说:“它们可以适应拥有任意技能的队友。”

代理不断玩游戏,学了几千小时之后就能掌握一些特殊技巧,比如当一名团队成员即将夺到旗帜时,它们会冲向敌军基地。因为人类玩家都知道,当对方的旗帜被带回基地时,会有一面新的旗帜出现在对方基地,等着被夺取。

DeepMind正在开发AI,它可以玩复杂的3D视频游戏,比如Quake III、Dota 2、《星际争霸2》。许多人相信,如果AI能够在虚拟竞技场获得胜利,它也许能变成自动系统,用于现实世界。

例如,类似的技术可以用在仓库机器人身上,让机器人组队搬运货物,从一个地方运到另一个地方,或者帮助自动驾驶机器人穿过拥挤的车流。OpenAI研究人员Greg Brockman解释说:“游戏一直以来都是AI的评测基准。如果你不能解决游戏问题,就无法解决其它问题。”

不久之前,想开发一套AI系统,让它在Quake III之类的游戏中对抗人类,还是一件不可能的事。就在前几年,DeepMind、OpenAI及其它实验室取得明显进步,它们用到一种新的数学技术,也就是“增强学习”,有了这种技术,机器可以通过极端试错不断学习。

通过一次又一次的游戏,自动代理不断学习,理解到哪种策略能带来成功,哪种不能。当一名团队成员即将夺到旗帜,如果朝着敌军的基地冲锋能拿到更多点数,代理会将这种策略吸收进去。

谷歌AI在游戏中组队击败人类团队 这一壮举到底有何意义?

正是凭借这一策略,2016年DeepMind开发的AI代理在围棋上击败人人类。第一称视频游戏更复杂一些,如果是两个团队对决,那就更复杂了。DeepMind的自动代理玩了大约45万回合的游戏,学着夺旗,相当于在几周的时间内训练了4年。最开始时,代理惨败。但它最终理解到了游戏的诀窍,比如当它们袭击敌军的基地时,何时应该追随队友前进。

DeepMind还在开发可以击败人类的《星际争霸2》代理,OpenAI研究人员也开发了一套可以玩Dota 2的代理。4月份,在Dota 2游戏中,5个代理组成团队,击败了5名人类顶尖高手组成的团队。

William Lee是一名职业Dota 2玩家,去年,他曾经与早期版本的AI系统对决,一对一玩游戏,当时AI并没有给William Lee留下深刻印象。后来代理不断学习,当William Lee以团队成员的身份与AI团队对决时,他为AI的表现感到震惊。William Lee说:“我原本以为,机器不可能以5对5的方式玩游戏,更别说赢了。所以我感到很惊讶。”

AI可以在游戏中战胜人类,这样的技术真的可以用来解决现实问题吗?佐治亚理工学院计算机系教授Mark Riedl认为,AI代理并没有真正协作,它们只是对游戏中发生的事迅速回应,并不是AI代理之间传递了信息,人类玩家会传递信息。

虽然AI的表现看起来像是协作,但它们之所以做到是因为AI深刻理解到游戏中正在发生什么事。

DeepMind研究人员Max Jaderberg说:“你如何定义团队合作,这不是我们想解决的问题。当一名代理坐在敌军基地里,等着旗帜出现,这种行为只有依赖团队成员才能实现。”

Riedl认为,游戏没有现实世界复杂,游戏里的3D环境是精心设计的,导航更容易,在Quake游戏中执行战略、追求协作更简单一些。

增强学习适合这样的游戏。在视频游戏中,成功的标准就是拿到更多点数。在夺旗游戏叶,夺取的旗帜越多,点越多。但在真实世界,成功不是用点数来衡量的,它有多种多样的衡量标准。

谷歌AI在游戏中组队击败人类团队 这一壮举到底有何意义?

不过做一些简单任务还是可以的。OpenAI训练一只机器人手臂,让它操纵字母块。你让手臂展示字母A,它就会将A字母块展示给你看。谷歌也向我们演示,机器可以学着挑选随机物件,比如乒乓球、塑料香蕉,然后将它们扔到相隔一段距离的垃圾桶。类似的技术可以用在仓库。

想解决更复杂的问题,需要更强的计算力。OpenAI系统花了几个月时间学着玩Dota 2游戏,玩的时间累计超过45000年,它需要依赖几万颗计算机芯片才能完成。Brockman说,租赁这些芯片花了计算机几百万美元。

DeepMind和OpenAI能够承担高昂的成本,但是其它学术实验室、小机构承受不起。有人担心,少数财大气粗的实验室将会成为未来AI的统治者。

不过即使是大型实验室,恐怕也没有足够强的计算力可以驱动用于现实世界的技术。虽然AI可以在虚拟世界夺旗,击败人类,但在夏令营空地上,它们没有希望登场,至少短期之内看不到希望。