AlphaGo之父十年磨一剑
似乎在一夜之间,机器选手战胜了人类最顶尖围棋选手。但是,对于席尔瓦来说,人工智能围棋耗时十几年,最终不过是水到渠成。
作为AlphaGo的幕后团队的技术主管,也是谷歌DeepMind团队最重要的科学家之一,席尔瓦还身兼UCL大学的教职,是该校计算机系的教授,教授“强化学习”的课程。
席尔瓦是在加拿大阿伯塔大学获得博士学位,师从世界上首屈一指的“强化学习”大师理查德·萨顿(Richard S.Sutton)研究强化学习算法,后来在另一座科技圣殿美国麻省理工学院从事博士后研究。
在攻读博士以及博士后工作期间,席尔瓦一直致力于强化学习在围棋人工智能上的研究。到英国UCL大学计算机系执教以后,他还经常拿围棋作为授课的应用实例。
席尔瓦的课程开始听的人并非很多。三年前,我曾上过他的课程。有一次因故迟到了20分钟,当时的教室里仍然可以找到座位。现在,随着他加入到Deepmind团队,尤其是他掌舵AlphaGo项目名声大噪,他的课程也开始广受欢迎,迟到的人基本上只能站着听课了。
加 入DeepMind之前,席尔瓦即已开始和CEO戴密斯·哈萨比斯(Demis Hassabis)共同研究强化学习。哈萨比斯在UCL拿到了神经学博士学位。两个人都痴迷于游戏,哈萨比斯少年时曾经是英国国际象棋队队长,在13岁便已经获得国际象棋大师的头衔,青年时自创游戏公司,而席尔瓦则长期对围棋情有独钟。
2014年初,在被谷歌收购之前,DeepMind即开始与UCL洽谈,希望能买断席尔瓦的工作时间。这样可以保留他在大学的教职的同时,还可以让他在DeepMind全心工作。
加盟DeepMind之后,席尔瓦成立了20个人的AlphaGo团队,专门研究围棋人工智能。汇集整个团队的力量,他要求在技术研发的每一个环节上都追求极致。AlphaGo团队成员就透露,有的智能模块在谷歌团队看来已经很完美了,但是席尔瓦却仍认为不及格,离完美还差很远。
长期专注于人工智能与围棋项目,在技术方面追求极致,再加上势大财雄的谷歌的团队配合,最终成就了AlphaGo的骤然爆发。
复盘谷李大战
复盘是职业围棋选手经常做的一件事,他们相信总结过去一盘棋的经验和教训,可以提高自己的棋艺。
AlphaGo团队也做了复盘,通过几张幻灯片的形式,席尔瓦复盘了这5场比赛的胜负关键处,而在场的听众被禁止拍照。
第一盘的胜负关键处是,AlphaGo执白棋第102手打入黑空,职业高手们普遍认为这是一招险招,看上去李世石对此也早有准备。事后看,棋局的进程却是李世石应对有误,进入到了AlphaGo的计算步调中。再下了几手棋之后,AlphaGo已经优势明显。
第二盘棋的开局不久,AlphaGo就下出了职业棋手们普遍认为不妥的一手棋。席尔瓦称其为反人类(unhuman)一手——第37手5路肩冲。观战的多数职业高手认为这不太成立,超出了职业高手们正常的行棋逻辑。
随后的进程,这手棋的价值逐渐闪现,李世石又一次输得毫无脾气。
席尔瓦解释道:“多数评论员都第一时间批评这一步棋,从来没有人在这样的情况下走出如此一着。在胜负已定之后,一些专业人士重新思考这一步,他们改口称自己很可能也会走这一着。”
而在AlphaGo看来,当时只是一步很正常的走子选择而已。
对于第一盘棋和第二盘棋,许多职业围棋选手以及媒体分析都认为,AlphaGo逆转取胜,但是在AlphaGo自身的价值网络所做的实时胜率分析看来,自己始终处于领先。在AlphaGo获胜的4盘中,AlphaGo系统自有的胜率评估始终都是领先李世石,从头到尾压制直到最终获胜。
第三盘和第五盘,AlphaGo 都是在棋局刚开始不久,就已经取得了明显优势并持续提高胜率直到终局。与职业棋手根据经验所做的胜负判断不同,AlphaGo的自有胜率评估是基于一个价值模块,做出对棋局胜负的预计。
这两种判断截然不同。当第五盘右下角的争夺错综复杂时,AlphaGo选择脱先,转而落子在其他位置。不少职业棋手认为,AlphaGo在此犯错并落后了,但AlphaGo的选择却是依据全局最优估计而做出的。
以几局的成败论,AlphaGo的这种判断似乎更为准确。突破了职业棋手对围棋的传统的理解范畴,不再局限于棋手多年培养出来的围棋直觉和套路定式,会选择探索职业棋手正常不愿意考虑的招数。AlphaGo在人类棋谱学习的基础上,还进行了大量的自我对弈,从而研究出了一些人类从未涉及到的走法。
·凡注明来源为“海口网”的所有文字、图片、音视频、美术设计等作品,版权均属海口网所有。未经本网书面授权,不得进行一切形式的下载、转载或建立镜像。
·凡注明为其它来源的信息,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
网络内容从业人员违法违规行为举报邮箱:jb66822333@126.com