放大/ AlphaStar(神族,绿色)处理从虫族玩家防空单元(凤凰城和执政官).DeepMind阅读器之间的飞行单位评论93 54海报参与分享这个故事在Facebook上分享在Twitter上分享reddit的

今年1月,谷歌的DeepMind小组宣布,其AI,被称为AlphaStar,曾在星际争霸击败两位顶尖人的职业球员。但是,当我们认为在当时,这是不太公平的战斗。现在AlphaStar对其性能提高到足以实现星际争霸II宗师的地位,使用相同的接口,一个人的球员。该小组所描述的工作在自然界新的纸张。

“这是一个梦想成真,”说DeepMind合着者奥里奥尔Vinyals,谁是一个狂热的星际争霸选手20年前。 “AlphaStar用神经网络和通用学习算法,这在十年前是无法想象的,当我研究基于规则星际AI利用系统达到宗师级别只。”

在AlphaGo进一步ReadingMove:AlphaZero教本身打去年三个不同gamesLate,我们报道了AlphaZero,DeepMind的AlphaGo,其通过击败李世石,不由(人类)世界冠军围棋世界各地的头条新闻在2016年的直接后裔的最新成果。 AlphaGo去年得到了重大升级,成为能教自己的制胜战略,无需人工干预。通过一遍又一遍的播放本身,AlphaZero训练有素本身从头围棋在短短日稀土元素天彻底击败原来的AlphaGo 100场比赛为0收到的唯一输入是游戏的基本规则。然后AlphaZero教自己发挥三天三种不同的棋盘游戏(象棋,围棋和将棋,日本形式的国际象棋),没有人的干预

的秘诀:“强化学习,”在这本身打数以百万计的游戏允许程序从经验中学习。这工作,因为AlphaZero是奖励最有用的动作(即,制定制胜战略)。人工智能考虑最可能的下一步行动,并计算每个人获胜的概率做到这一点。最新版本合并深强化学习与通用蒙特卡洛树(神经网络的许多层)搜索方法。由于国际象棋大师加里·卡斯帕罗夫在社论科学去年写道,“相反的处理以惊人的速度人力指示和知识,以前所有的国际象棋机,AlphaZero生成自己的知识。”

放大/ AlphaStar(虫族,红色)保卫早期侵略其中对手筑基的一部分邻近AlphaStar的基础上,展示robustness.DeepMind

随着AlphaZero的成功,DeepMind的焦点转移到一个新的AI前沿:部分(不完全)信息游戏一样扑克,和多单放机视频游戏,如星际争霸II。星际争霸II也是不完全信息游戏,并没有一个统一的最佳策略,就像玩剪刀,石头,布。它需要在一个大的长期规划能力和实时决策动作空间。不仅是游戏地图隐藏的球员,但他们也必须控制几百台(手机游戏的片断,可以建立影响游戏)和建筑(用于创建加强这些单位的单位或技术)同时进行。作为人工鱼礁添利(一个狂热的星际争霸选手)1月写道:

“星际争霸需要玩家收集资源,建造几十个军事单位,并用它们来试图摧毁他们的对手星际争霸是特别具有挑战性。一个AI,因为玩家必须进行过游戏的几分钟长远的计划,在敌人反击的脸飞调整他们。DeepMind说,之前自己的努力,没有人接近设计星际AI一样好作为最好的人类玩家。“

那早期AlphaStar的版本还依赖于深强化学习教计划,以模仿人类的策略。在这一点上,AI已经足够熟练击败精英级别的球员大约95%的时间。然后DeepMind团队创建的AI,每个采用不同的演奏风格的变体,并将它们放置到一个虚拟的星际争霸联赛。这使得代理商从他们的错误中学习,并相应地发展自己的战略。然后DeepMind选择5个最强的代理商和进站他们对两人的职业球员:达里奥“TLO”文施和格热戈日“玛娜” Komincz。人工智能击败人力挑战者中的所有十场比赛。

这就是说,它是不太公平的战斗。 “以公平的竞争环境的最终出路是使AlphaStar使用完全相同相同的用户界面人类玩家,“李在一月中写道,”该接口可以被虚拟化,当然,但比赛应该得到相同的原始像素的输入作为一个人的球员,应该用鼠标动作的顺序被要求输入指令和按键,与投入仅限于人的手能够达到的速度。这是完全确定AlphaStar不给其软件的不公平优势的唯一途径。“

玩像一个人

AlphaStar这个最新版本的走一段很长的路要走解决这些问题,结合深强化学习多代理学习和模仿直接从游戏数据中学习,再一次磨练通过一个虚拟的联赛。每通过Vinyals和同一篇博客文章DeepMind合着者沃伊切赫Czarnecki谈到,新的,改进的阿尔法明星是受到其下人类发挥同样的限制,并发挥它在Battle.net上“使用相同的地图和条件,人类玩家。”

放大/ AlphaStar(虫族,在绿色)使用制胜一晚期决赛相遇游戏,高科技units.DeepMind

“联盟的主要观点是,打取胜是不够的,” Vinyals和Czarnecki谈到写的改进AlphaStar的这个最新的化身。 “相反,我们需要两个主剂,其目标是赢得与每个人,也是开发者代理人的需要一个团队。“重点是帮助主要代理发展壮大通过暴露自己的缺陷,而不是最大化自己的赢率。使用这种训练方法,目前联赛获悉其所有复杂的星际争霸II战略,最终到终端的时尚,而不是TH的更早的化身我们的工作,这缝合在一起的各种方法和算法产生的代理“

AI现在也能发挥或对三个种族在星际争霸2:神族,人族和虫族。 (早期版本只打神族与神族)DeepMind进站AlphaStar针对一系列网游人类玩家。人工智能是额定的在大宗师级别的所有三个星际争霸II种族和正式排名人类玩家99.8%以上。这是第一AI实现在一个受欢迎的专业电子竞技这一地位,而无需使用游戏的简化版本,这是一个强烈的信号,可用于这些类型的通用机器学习算法来解决复杂的现实问题,如个人助理,自动驾驶汽车,或ROBO抽动 - 所有这些都需要在信息不完善的基础上,实时决策。

“在DeepMind,我们有兴趣了解的潜力和开放式学习,这使我们能够发展局限-的可与复杂的现实世界域应付强大而灵活的代理,” Vinyals和Czarnecki谈到写道。 “像星际争霸游戏是一个很好的训练场,以推动这些做法,因为玩家必须利用有限的信息做出对多层次和时间表后果动态和困难的决定。”

而这一次,它似乎是一个公平的战斗。 “我发现AlphaStar的游戏令人印象深刻,”文施说,这个最新的化身。 “该系统是在评估其战略地位非常熟练,并且知道什么时候从事或与它的对手脱离。虽然AlphaStar具有优良的和精确的控制,它不觉得超人,肯定不是一个级别的人不能在理论上实现。总体而言,感觉很公平的,喜欢玩星际争霸的 '真正的' 游戏“

DOI:。自然,2019年10.1038 / s41586-019-1724-Z(约的DOI)

关注高德娱乐官网(www.gzkedayiqi.com)。

上一篇:在Vue公司的结尾:索尼将关闭其流媒体视频服务 下一篇:没有了
                  友情链接:
腾讯游戏 幸运28APP下载 网易游戏