阿尔法狗是哪个国家研发的(人工智能狗阿尔法)

作者|热腾腾的蚂蚁卜叶

2016年，谷歌围棋人工智能“阿尔法狗”(Alpha GO )以4比1的成绩战胜世界围棋冠军cjdds，这一人机大战成为人工智能史上的新里程碑。

最近，美国计算机学会(ACM )宣布，将向AlphaGo研究开发小组组长David Silver颁发2019年ACM计算奖，以表彰他为电脑游戏性能带来的突破性进展

“在专用人工智能发展为通用人工智能的过程中，alpha go是一个重要阶段。》北京大学教授、北京智源人工智能研究院院长在意的店员告诉记者《中国科学报》。

深蓝到“阿尔法狗”

在人机游戏中，alpha go不是第一个例子。

就计算机的“棋艺”而言，十几年前的IBM的“深蓝”与alpha go相比也不可同日而语。尽管如此，1997年“深蓝”击败了当时国际象棋冠军自信的冥王星，震惊了当时的学术界。

“深蓝算法的核心是暴力搜索。》中科院自动化研究所研究员碧蓝的歌告诉《中国科学报》，其原理是产生尽可能多的行走方式，进行尽可能深入的探索。

采用的alpha-beta剪枝算法，可以迅速削减搜索路径，不断评估局面，找到最佳的行走方式。

也就是说，它每走一步，都是在后续所有可能的情况下进行的决策，所以很多人认为这不是人工智能的胜利，而是计算机的胜利。

阿尔法go之所以能够达到人类顶级棋手的棋艺水平，就是靠“自学”。

“围棋是一项变量非常多，充满不确定性的竞技活动。下围棋的可能性几乎是无穷无尽的水平。棋手有361种落子选择。理论上，如果不考虑限制条件，棋盘的眼睛状态共有3的361次方种，下法共有361次方种，这个数字约为10的768次方，几乎无限大。要知道人类已知的宇宙原子数，只不过是10的80次方。 ”

清华大学计算机科学技术系教授dcdhm告诉《中国科学报》，alpha GO在一定程度上突破了人类的认知学习能力，原理上包括围棋在内的其他观测信息完备，能够掌握状态动作空间数不清的各种人类技能，甚至能够发挥“直观”的判断能力。

除了不断接近人类的“头脑”之外，alpha go的学习速度也远远超出了想象，其进步的余地似乎难以估量。

“感觉有血有肉的人在下棋，该扔的地方也扔了，该停的地方也扔了，很平衡的棋风，真的不像出自节目手。”pgddbm在媒体采访中说，阿尔法

2017年，阿尔法go进一步升级。在《自然》年发表的研究论文中，Silver团队报告了新程序AlphaGo Zero。从空白状态开始学习，不利用人类围棋比赛的数据作为训练数据，可以迅速通过2900万次自我游戏、自学围棋，以89比11的战绩打败“前辈”。

“AlphaGo Zero从惊人的大量游戏数据中掌握了能力。浙江大学人工智能研究所所长如意的世界揶揄说：“看到阿尔法戈零有一个内心世界，人类退了一步，他可能会莞尔一笑。”

另一方面，alpha goro零在国际象棋、围棋等游戏中发挥了超人的表演，展现出了前所未有的游戏方法的普遍性。

阿尔法多的“三驾马车”

alpha go击败cjdds后，人们惊讶地从公开的程序中发现，打败这些围棋高手不仅依赖于计算机强大的计算能力，还依赖于其精巧的算法。

在如意的世界里，alpha go的算法主要依靠强化学习、深度学习和在蒙特卡洛树上搜索“三驾马车”并兜风，但这也被解释为是其中心技术。

南京大学计算机科学与技术系教授阔达发卡表示，强化学习使AlphaGo具有自学能力，深度学习使AlphaGo具有通过数据驱动的机器学习进行评价量化的能力，蒙特卡罗树是连接所有技术和动作的框架

例如，围棋游戏中，“判断局面”用于衡量某一局面的价值，数值越大表示对现在行动的选手越有利。 “最佳对策”是通过选择在某一局面中能带来最大价值的行动而得到的。

在阿尔法go的强化学习中，科学家使用战略函数和棋局函数进行测量。有了这两个评价函数，机器在检索时尽量选择评价值大的行为，以达到缩小思考范围的目的。

另外，即使没有达到终局，也可以根据棋局函数判断当前局势的优劣。

由于大部分游戏的状态空间巨大，所以无法实现严密的计算评价函数。利用深度学习和大量的数据，alpha go可以自动找出特征，同时拟合评价函数。

蒙特卡罗树搜索是集合了这些技术的搜索框架，通过重复模拟和采样的对局过程来搜索状态空间。

“蒙特卡罗树搜索的特点是非常容易并行化，随时可以停止。引入随机抽样可以减小评价错误带来的负面影响，还可以在随机搜索过程中结合强化学习自学调整评价函数，使算法更聪明。 ”阔达的发卡告诉了《中国科学报》。

分析阿尔法go成功的原因，蓝歌认为，深层神经网络在其中起着重要的作用。 “传统的基于规则的计算机围棋方法只能识别固定的棋路。这就像背棋谱一样。基于深度学习的alpha go自动提取棋谱的棋局特征，并将其有效组合，大大提高了对棋谱的学习能力。 ”

其次，对局面的准确评价也是阿尔法

Go成功的关键。价值网络和快速走子网络在局面评估时互为补充，能够较好地应对对手下一步棋的不确定性，对得到更加精确的评估结果至关重要。

此外，硬件配置的大幅提升也功不可没。AlphaGo采用了异步多线程搜索，用CPU执行模拟过程，用GPU计算策略网络和价值网络。最终单机版本AlphaGo使用了48个CPU和8个GPU，分布式版本的AlphaGo则采用了1202个CPU和176个GPU。

正是这些计算机硬件的支持，才得以让AlphaGo发挥出强大的实力。

人工智能发展的一小步

在AlphaGo诞生后的几年中，其背后的神经网络、深度学习、蒙特卡洛树搜索法等技术，开始从“下棋”这样的场景，延伸到更多具有商业化价值的场景中。

在中国，这些技术催生了游戏领域人工智能的研究和发展。腾讯旗下游戏王者荣耀的“觉悟”、微软亚洲研究院的麻将“Suphx”以及启元的星际争霸“朴实的学姐”等虚拟“玩家”一时间如雨后春笋般涌现。

这些技术还推动了其他领域包括机器人、智能驾驶、智能制造、电力优化、量化金融、智慧医疗等纵深应用领域的技术进步，包括且不局限于提高英国电网的效率、降低谷歌数据中心的能耗，以及为欧洲航天局设计太空探测器的轨道等。

不过，AlphaGo的胜绩是否代表着人工智能的胜利？答案是否定的。

“AlphaGo的胜利，只能说明这个算法在围棋等比赛中战胜了人类。但是，就人工智能的发展而言，几乎所有人都认同目前人工智能发展水平还处在初级阶段。”阔达的发卡说。

他表示，目前人工智能算法大多依赖高质量的海量数据，需要的功率也远高于人类大脑的能耗水平，同时也很难应用于多种场景。

“一个明显的例子就是，AlphaGo的实现方法在明确定义的环境下效果明显，而在开放环境下，结果往往不尽如人意。比如AlphaGo下围棋很厉害，但面对图像识别问题肯定就不行了。”

碧蓝的歌曲表示，在围棋、麻将和其他具有类似评级制度的游戏等测试平台，或能客观地衡量一些算法的人工智能水平，但是在某些难以量化的领域，很难对算法的智能水平给出客观评价。

“比如，自动驾驶有5级划分，但是不够明确。驾驶涉及技术链条较长，包括定位、感知、预测、决策、规划和控制等。若想全面衡量驾驶人工智能的水平，还需要更细致的分类工作。”

在顺心的店员看来，人类面临的很多问题都是开放性问题。应对开放性挑战，需要通用人工智能。

“AlphaGo是人工智能研究的一座里程碑，创造了一种能够解决很多智能问题的通用方法，但还不是真正意义上的通用人工智能。人工智能已经走上了正确方向，但也才刚刚开始。”

《中国科学报》（2020-04-9 第3版综合）

编辑 | 赵路

排版 | 志海