alphago与alphazero原理和未来应用研究--慧智精品网

2019年12月

AlphaGo 与AlphaZero 原理和未来应用研究陈铭禹（杭州师范大学附属中学，浙江杭州310030）【摘要】人工智能长期以来的目标就是创造机器的完全主导领域，

在人类生活中发挥作用。AlphaGo 成为首个在围棋中战胜人类世界冠军的系统。AlphaGo 神经网络使用人类的棋盘数据进行学习训练，

同时也通过自我对弈进行强化学习。围棋对于人工智能来说是最具有挑战性的经典博弈比赛，它的巨大的搜索空间，棋局和落子地点让机器学习难以应对。科学家创造了一种新的人工智能程序系统AlphaGo ，使用估值网络

来评估局势以及使用策略网络来选择如何落子。这些深度神经网络被一种新的组合来训练：

qq密码查询

使用了人类专业比赛数据的监督学习，以及自我对弈的强化学习。AlphaZero 没有使用任何预测搜索的方法，神经网络搭配最先进的蒙特卡洛树搜索算法让程序达到了更加精确和智能的水准，这程序模拟了数以千计的自我对弈的随机博弈。Alpha 系列达到了99.8%的胜率，这是史上第一次计算机程序在全尺寸围棋中击败人类职业

冒险岛什么职业最强

棋手。通过对AlphaGo 和AlphaZero 原理学习，我们可以在掌握现有先进技术的基础上，开拓创新，

思考类似的人工智能在医学，军事等领域的未来应用可能性。

【关键词】AlphaGo ；AlphaZero ；

策略网络与决策网络；蒙特卡洛树搜索【中图分类号】TP18【文献标识码】A 【文章编号】1006-4222（2019）12-0022-02图1蒙特卡洛树搜索算法Alpha 系统流程

[8]

图2决策网络流程

[2]

0引言

1936年，艾伦图灵提出了一种可以辅助数学研究的机器(后来被称为)“图灵机”,80年过去了，人们在人工智能领域取得了突飞猛进的发展[1]。20世纪90年代,IBM 超级计算机“深蓝”击败国际象棋世界冠军，引发了“电脑是否超越人脑”的热议。然而，围棋因其变化莫测的招式成为AI 难以应对的难题。DeepMind 开发的人工智能程序AlphaGo ，击败欧洲围棋世界冠军樊麾[2-5]。AlphaGo 系统的主要是基于深度学习，下棋时配合两个“大脑”，其中一个是落子选择器，另一个是棋局估价器，并配

合蒙特卡洛搜索算法，完成自主落子下棋。1蒙特卡洛搜索“蒙特卡洛方法”是一种基于统计的模拟计算方法，在1940年代由冯诺伊曼等人发明，名字源于赌城蒙特卡洛。顾名思义，该算法由概率算法做基础来进行演算。蒙特卡洛算法

首先是要将需要计算的问题转化为概率问题，然后进行统计,

获得一个概率，作为解决问题的解[6]。

蒙特卡洛方法可以分成两类:①所求解的问题本身具有

内在的随机性，借助计算机的运算能力可以直接模拟这种随

机的过程;②所求解问题可以转化为某种随机分布的特征数。

通过随机抽样的方法，以随机事件出现的频率估计其概率，或

者以抽样的数字特征估算随机变量的数字特征，并将其作为

问题的解。无公害蔬菜生产技术

蒙特卡洛树算法(MCTS )是始于蒙特卡洛方法的一种进

化算法，是用蒙特卡洛方法去估算每一步围棋落子在不同方

位时的不同胜率，从而确定最优解法。蒙特卡洛树算法通常用

于求解一些几乎不可能完全求解的问题。如此往复，在每一次

轮到系统的回合时进行该算法，使得系统赢面达到最大。该算

设定开机密码

法的每个循环囊括了4个步骤：选择，扩展，仿真，反向传播[8-9]。蒙特卡洛树搜索因为可以直接模

拟到游戏的结局，所以算法精确。而且这样并不需要一个估值函数，只要让程序在游戏规则中执行操作，达到游戏机制即可。而且蒙特卡洛算法可以随时随地停止，根据系统平时掌握的深度给出系统认为的最优解法以及结果。但是相比于1997年的Deep blue 所针对的国际象棋而言，里面包含的情况千变万化。几乎无法在较短时间内计算清楚。因此，对于这种情况，我们依然需要一个好的评估系统(价值决策网络，信息决策网络)，来缩短蒙特卡洛树算法所需要的时间，以求在最短的时间内做到最有效的决策。无论是AlphaGo 还是AlphaZero 都是需要蒙特卡洛这种基础算法来帮助进行演算,MCTS 是这一种有穷人工智能技术的核心[8-9]。

2AlphaGo 与AlphaZero 原理2.1AlphaGo 原理围棋是3000多年前中国人发明的一种策略性游戏，被称为世界上最为复杂的棋类游戏。围棋的状态总数大约有2.081681994×10170，多于宇宙中原子的总数，在20年代想要用计算机去完成这一任务是不可能的。但随着算法的更新换代和计算机硬件系统的发展，对于此类规则明确却拥有无穷计算量的任务来说，这已经能够通过人工智能的方法实现。Al ⁃phaGo 就是其中一个典型代表。AlphaGo 的基本思路就是根据价值网络，决策网络，通过蒙特卡洛树运算，得到最终的棋盘胜利。

所谓价值网络，就是用一个“价值”数来评估当前的棋局[3]。如果我们把棋局上所有棋子的位置总和称为一个“状态”，每通信设计与应用

送给老师的话

手绢是什么演变来的22

慧智精品网

alphago与alphazero原理和未来应用研究

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表