您当前的位置 : 体育新闻>体育快讯>

阿尔法首次复盘人机大战  自评等级分远超柯洁

海口网 http://www.hkwb.net 时间:2016-03-31 07:03

  “神之一手”的背后

  AlphaGo系统并非无懈可击,但是,漏洞并不是所谓的模仿棋、打劫等等。它的漏洞体现在李世石赢得比赛的第四盘棋,AlphaGo取得巨大进步的价值模块出现了瑕疵,这也是AlphaGo在5局棋中唯一的一次漏洞,也是唯一的一盘失利。

  在第四盘棋中,开局之后很快就几陷绝境中的李世石,弈出了被来自中国的世界冠军古力成为“神之一手”的白78手,凌空一挖。坚韧如山的对手突然倒下,AlphaGo变得不知所措,连续出现低级昏招,这也成就了AlphaGo有记载的公开的第一局失利。

  对于AlphaGo的异常表现,各路观战的职业高手充满了猜测。即使是观赛的哈萨比斯和席尔瓦也都不知道究竟发生了什么。

  事后的分析显示,在李世石下出第78手之前,AlphaGo自有的胜率评估一直认为自己领先,评估的胜率高达70%。在第78手之后,AlphaGo评估的胜率急转直下,被李世石遥遥领先,之后再也没有缩短差距。

  为什么AlphaGo面对李世石的第78手表现如此差,是因为它没有想到李世石的这手棋吗?

  席尔瓦揭晓了这一秘密。AlphaGo的计算体系中,的确曾经评估过这手棋,只是在AlphaGo的评估中,李世石走那一子的概率大概是万分之一,最终,它没有想到李世石会这样走,也就没有计算李世石这样走之后如何应对。

  赛后,获胜的李世石则说,这一手在他看来是唯一的选择。

  AlphaGo背后的蒙特卡洛树搜索依赖的策略网络,是根据人类对弈棋谱数据训练出来的模型,它很难去预测白78手这样的所谓手筋妙招,也就很难判断基于这一步继续往下搜索之后的胜负状态。

  这就是AlphaGo在这5盘对局中表现出的唯一破绽,也是目前人类智慧还领先于AlphaGo背后的大数据驱动的通用人工智能(Data-driven Artificial General Intelligence)的地方。

  人工智能已然无敌?

  在此次大赛之前,多数来自职业围棋界的棋手包括李世石自己都认为,李世石会轻松取胜。但是,DeepMind团队却信心满满。另一位DeepMind团队的主力成员也曾经在UCL介绍AlphaGo的进展,在展望与李世石的比赛时,他曾就笃定地预言,AlphaGo会赢。

  当 有人问及从去年10月战胜梵麾,到今年3月对阵李世石,半年时间当中, AlphaGo究竟有哪些方面的提升时,席尔瓦简要回答说:“我们在系统的每一个模型上尽可能推进效果极致,尤其在价值网络上获得了很大的提升。训练价值网络的目标胜率除了通过自我对弈的结果外,我们还使用了搜索策略去尽可能逼近理论的胜率。”

  直观地说,3月版本的AlphaGo比半年前的水平大概是让4子——让对方先占据4个星位!

  在战胜李世石之后,中国、韩国、日本许多的职业棋手,包括李世石本人都希望能够再与AlphaGo一战。

  按照等级分排名,AlphaGo仅次于中国的世界冠军柯洁,排名世界第二。而席尔瓦透露,AlphaGo的最新版本自我估分在4500左右,远远超出现在3600多的柯洁,实力水平大约在13段左右,人类选手中已然无敌!

  AlphaGo为什么会有这么强劲的表现?在讲座当中,席尔瓦部分地复述和解释了今年1月《Nature》上发表的论文,讲述了人工智能的基本原理以及AlphaGo的技术框架。

  对于人工智能来说,围棋游戏的难度在于,决策空间实在太大。决策(Decision Making)是人工智能的关键要素,使得机器能够在人类的世界中发挥作用。

  在围棋以及任何游戏中,一次决策往往使得游戏更新到了一个新的局面,于是影响到了接下来的决策,一直到最终游戏的胜负。人工智能的关键就是在决策空间中搜索达到最大效益的路径,最终体现在当前决策中。

  围棋棋盘上棋子可能的组合方式的数量就有10的170次方之多,超过宇宙原子总数。在近乎无穷的决策空间中,去暴力搜索出当前棋盘的下一步最优走子是绝对不可能的事情。

  AlphaGo的方案是在这样的超级空间中,做到尽可能有效的路径选择。其思路是一个框架加两个模块:解决框架是蒙特卡洛树搜索(MonteCarlo Tree Search),两个模块分别是策略网络和价值网络。

  策 略网络(Policy Network)根据当前棋盘状态决策下一步走子,是典型的人工智能决策问题。策略网络搭建的第一步,基于KGS围棋服务器上30万张业余选手对弈棋谱的监督学习(SupervisedLearning),来判断当前棋盘人类最可能的下一走子是什么。

  第二步,是利用监督学习得到的第一个策略网络去通过自我对弈来训练一个加强版的策略网络,学习方法是强化学习(Reinforcement Learning),自我对弈3000万局,从人类的走子策略中进一步提升。

  遵循策略网络的判断,在蒙特卡洛树搜索框架下对每个棋盘状态的采样范围就大大减小,这是一个搜索宽度的减小,但是由于一盘围棋总手数可以多达250步以上,搜索的深度仍然带来无法处理的巨大计算量,而这就由第二个模块——价值网络来解决。

  价值网络(Value Network)的功能是根据当前棋盘状态判断黑白子某一方的胜率,是一个人工智能预测(Prediction)问题。

  处理预测问题的机器学习模型一般需要直接知道需要预测的真实目标是什么,比如预测第二天的天气,或者预测用户是否会一周内购买某个商品,这些历史数据都有直接的目标数据可供机器学习。而在围棋对局中,给定的一盘棋局完全可能在历史上就找不到哪次对弈出现过这样的局面,也就不能直接得到对弈最终的胜负结果。

  AlphaGo的解决方法是使用强化学习得到的策略网络,以该棋局为起点进行大量自我对弈,并把最终的胜率记录下来作为价值网络学习的目标。

  有了价值网络,蒙特卡洛树搜索也就不再需要一直采样到对弈的最后,而是在适当的搜索深度停下来,直接用价值网络估计当前胜率。这样就通过降低搜索的深度来大大减小了运算量。

  AlphaGo整合了目前机器学习领域的大多数有效的学习模型,包括通过采样来逼近最优解的蒙特卡洛树搜索,通过有监督学习和强化学习训练来降低搜索宽度并作出走子决策的策略网络,以及通过有监督学习训练的降低搜索深度提前判断胜率的价值网络。 

  作为人类棋手翘楚,33岁的职业围棋九段高手李世石,过去15年获得了十几个世界冠军头衔,总共下了1万盘围棋对弈,经过了3万个小时训练,每秒可以搜索10个走子可能。

  但是,作为人工智能科技进步的代表,吸收了近期机器学习人工智能的最新进展,建立起了全新的价值网络和策略网络,诞生只有两年时间的AlphaGo,差不多经历了3万小时的训练,每秒却可以搜索10万个走子可能。这一刻,胜负已分。

相关链接:
李开复:阿尔法跌破眼镜 期待挑战中国棋手
阿尔法机器人来海口了!能歌善舞还能做高难度动作
聂卫平:阿尔法狗后不敢再预测 四川能赢CBA很刺激
[来源:新浪体育] [作者:] [编辑:符德铭]
版权声明:

·凡注明来源为“海口网”的所有文字、图片、音视频、美术设计等作品,版权均属海口网所有。未经本网书面授权,不得进行一切形式的下载、转载或建立镜像。

·凡注明为其它来源的信息,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

图解海口一周热闻:海口日报海口网入驻“新京号”
图解海口一周热闻|多彩节目,点亮缤纷假期!
图解海口一周热闻:海口新年音乐会将于2024年1月1日举办
图解海口一周热闻:海口招才引智专场诚意揽才受热捧
图解海口一周热闻:海口获评国家食品安全示范城市
灾后重建看变化·复工复产
圆满中秋
勇立潮头踏浪行
“发现海口之美”摄影大赛
     
     
     
排行
 
旅客注意!海口美兰机场T2值机柜台17日起调整
寻旧日时光 海口部分年轻人热衷“淘”老物件
海口:云洞衬晚霞 美景入眼中
嗨游活力海口 乐享多彩假日
海口:城市升腾烟火气 夜间消费活力足
海口:长假不停歇 工地建设忙
市民游客在海口度过美好假期
2023“海口杯”帆船赛(精英赛)活力开赛
海口天空之山驿站:晚照醉人
千年福地寻玉兔 共庆海口最中秋
 
|
|
 
     www.hkwb.net All Rights Reserved      
海口网版权所有 未经书面许可不得复制或转载
互联网新闻信息服务许可证:46120210010
违法和不良信息举报电话: 0898—66822333  举报邮箱:jb66822333@163.com

网络内容从业人员违法违规行为举报邮箱:jb66822333@126.com

琼公网安备 46010602000160号

  琼ICP备2023008284号-1
中国互联网举报中心