首页 > 手机 > vivo > AlphaGo,alphago zero

AlphaGo,alphago zero

来源:整理 时间:2022-04-08 16:09:33 编辑:手机 手机版

李世石引退赛第一局三番棋中最大的亮点应该就是第一局李世石的黑76天外飞仙神之一飞这一步不仅当场击溃韩豆,就连绝艺、星阵等其他顶级ai也都没有看到。图1图1:韩豆当时应该只看到了黑1大吃的手段,所以提前用白 与黑棋做了交换。图2图2:白棋如果打完想要压出,黑4可以与白5交换,然后吃掉中腹棋筋。图3图3:如果白棋打完粘上,黑4与白5交换后,有黑10位妙手,恰好能够将白棋棋筋吃住,白不行。

阿尔法元(AlphaGo Zero)为什么能无师自通?

Alphago Zero为什么只进化了40天

Master版的阿尔法狗,怎么说都应该算是人类的学生,只不过青出于蓝而胜于蓝,现在被“纯自学野路子版”的阿尔法元吊打,的确颇有点让人情何以堪的滋味。要解释为什么阿尔法元(AlphaGo Zero)能无师自通,那答案取决于两个因素:首先是围棋的本质,其次是算法。即围棋这类完全信息博弈并且胜负判断精确且规则明确的问题,在本质上可以不依赖前人的探索,而完全从零开始在足够巧妙的算法和硬件配合下,既能在短时间内到达相当的水平和高度。

这依赖的是首先可以进行自对弈,其次能从自对弈中提取分析胜败的相关因素和特征,并投入到下一轮自对弈中去进行检验。对比一下人类的自学能力所需要的前置条件:首先,得有一个合格的人脑,即一个大约由数百亿神经元组合连接而成的硬件系统,其次得有一个基本的初始输入,包括认字脱盲拥有基础阅读理解能力,这可以类比为人类的算法系统。

在这两者配合之下,至少部分人就拥有了不依赖老师,而自己学习新知识甚至开拓新领域的能力。而AlphaGoZero并非一无所有,它有两大神经网络架构,供它从每一局的自对弈中提取分析胜败的特征算法,即自我反省能力,自我总结能力,并且将这种反省和总结立即投入到下一局的实战中进行校验的能力。而之所以能只通过490万局自对弈就能胜过从前三千万局的成果,我想这主要是因为算法的改进,尤其是特征提取方面的改进造成的,要知道从前的AlpahGo的一些基础特征,比如虎口之类的认知靠的是外界输入设定的,这说明老版本的特征提取能力不强,当然在能够利用人类经验的情况下,许多棋型特征都可以作为先验知识输入,这样在初期显示出来的水平较高,但在后期则可能受制于这些权重较高的经验而误入歧途。

这就是为何阿尔法元的成功,证明了两件事。其一,围棋是可以完全从零开始进行AI化的游戏,其二,人类经验在一定程度上是有局限的,会限制AI在极高水平时候的提高和成长。但我们还是得看到,阿尔法元 vs Master版本时候,并未到达全胜,总还是给人类经验留下点颜面了。另外,看到阿尔法元的成长史,也颇为有趣,万丈高楼也得有个地基啊。

AlphaGo Zero三天击败人类的背后究竟意味着怎样的进步?

AlphaGoZero跟完美的围棋之神有多大差距

学习3天:AlphaGo Zero

文章TAG:AlphaGoalphagoAlphaGoalphagozero

最近更新