日前，中国象棋AI“先知”战胜了人类。AlphaGo可以玩Go，但“预言家”真的可以在战役规划和灾难应对领域发挥作用。团队幕后解说。

文字/记者通讯员/金

编辑/勤奋黑猫新媒体编辑/激情流沙

“既然深蓝可以诞生在象棋领域，AlphaGo可以诞生在围棋领域，那么更加复杂、灵活、不透明的不完全信息博弈对抗，肯定会产生超越人类最高水平的人工智能智能代理！我们的先知系统正在挑战AlphaGO目前还做不到的工作！”在中国科学院自动化研究所自动化楼办公楼，中国科学院自动化研究所研究员、“CASIA- Prophet V1.0”(以下简称Prophet System)研发团队成员cmdxrz博士告诉记者，在不完全信息博弈对抗领域，利用人工智能最新成果开发的Prophet System迈出了坚实的第一步。

今年9月，在石家庄举行的2017年首届全国象棋推演大赛中，中国科学院自动化研究所开发的人工智能程序“CASIA- Prophet V1.0”在“赛诸葛”象棋推演人机大战中与来自四强军事个人赛和四强地方个人赛的8名选手展开激战，最终以7，333，601的战绩击败人类选手，展示了人工智能技术在游戏对抗领域的强大实力。

先知研发会员；中国科学院自动化研究所研究员cmdxrz博士团队

什么是战棋？游戏领域包括什么？在游戏对抗领域运用人工智能能给我们的生产生活带来哪些质的变化？近日，北京科技报记者来到中国科学院自动化研究所，采访了先知研发中心研究员cmdxrzd团队，并深入了解了战棋游戏背后的故事和先知系统的研发。

兵棋是真实战争的推演和预算

cjdbb以城解带，以模为械，在公交板块设置了九次进攻城市的机会，cjdbb九次远离。输掉比赛后，cjdbb的防守绰绰有余。

这是《墨子公输》的节选。讲的是墨子和鲁班之间的一场“模拟攻防战”。——墨子摘下腰带，用小木块作为防御装备，将其圈成一座城。鲁班多次展示出攻城的巧妙多变的装备，墨子也多次顶住了他的进攻。鲁班的进攻装备已经消耗殆尽，而墨子的防守战术却绰绰有余。最后，墨子赢得了“战争”，迫使ygdl放弃了攻打宋国的计划。

所谓战棋，是指模拟战争攻防的竞技游戏。墨子与鲁班的模拟攻防战是一个非常完整的棋局。现代军棋起源于欧洲普鲁士，最初是作为一种“宫廷游戏”发明的，旨在让宫廷贵族消磨无聊的时光。然而，经过一百年的发展，特别是两次世界大战的推动，战棋逐渐从模拟真实战争和战略部署转向论证设计武器系统和分析军事战略。

战棋推演

由于能够真实模拟战场环境，为部队战争做出科学决策，战棋推演在现代战争中发挥着越来越重要的作用。据了解，美国发动的阿富汗和伊拉克战争，已经通过国际象棋演绎过多次。推演的目的是为了设想足够多的情况和计划，以尽量减少人员伤亡。推演结果无限接近实战结果。

战棋推演因为能够最真实地模拟战场环境，为部队作战做出科学决策，在现代战争中发挥着越来越重要的作用。

“爱玩游戏的人对冰淇并不陌生。它和《星际争霸》《文明》《钢铁雄心》甚至早期的《三国志》都属于游戏对抗的游戏。”Cmdxrz告诉记者，与回合制围棋和国际象棋不同，军棋最大的特点是有一套开放的规则可以研究和讨论。——看不清楚对方的位置，无法知道对方的战术，甚至可以波及整个地球

Cmdxrz表示，自动化开发的预言系统是基于更具挑战性的战争和国际象棋的游戏对抗而设计开发的。“与人类相比，这个使用人工智能的系统可以更快、更准确地做出态势判断和战略决策，最大限度地减少错误的发生。”

用人工智能方案辅助决策

cmdxrz告诉记者，一局完整的战棋推演一般分为四个步骤，即态势分析、(战斗)方案生成、模拟推演和赛后复盘。俗话说“内行看门道，外行看热闹”，虽然普通观众更注重“硝烟弥漫”的战争阶段，但资深玩家更注重战前的态势分析和生成作战计划的过程，即使在大规模的战棋推演中，前两步也会占到整个游戏时间的50%以上。

现代战棋推演出现于19世纪中期。德国的Kriegsspiele(意思是战争游戏)是在地图上推导出来的。这种简单的方式现在还是很流行的。一本手册，一张地图，和许多操作者可以开始。然而，规则往往非常复杂。比如在移动的时候，需要考虑各种地形、部队本身的属性(行走单位、车辆单位)、天气等等。很多现代的战棋推演计算都比较复杂，所以往往是由计算机来完成。(图片来自网络)

所以，人工智能是在下棋。

演中，主要可以发挥三个方面作用：一是战前分析态势，科学的分析敌我双方的真实实力；二是方案筹划，综合考虑多维度信息科学化制定作战方案，减少我军伤亡，加大对敌军打击效果；三是提高作战过程中的实时决策能力，面对突发情况迅速给出合理的方案。

▲台湾当局每年都利用兵棋推演平台进行所谓的“汉光兵棋推演”，模拟解放军入台作战的过程，用以“提升防卫作战效能”，图为汉光兵棋推演沙盘图（兵棋台）。（图片来自网络）

在人机博弈这个领域，近20年来已经产生了3个里程碑式的事件：1997年IBM公司的“深蓝”击败国际象棋大师甜美的大侠，这是基于知识规则引擎和强大计算机硬件的人工智能系统的胜利；2011年同样是IBM公司的问答机器人“沃森”在美国智力问答竞赛节目中大胜人类冠军，这是基于自然语言理解和知识图谱的人工智能系统的胜利；第三次就是2016年的AlphaGo与儒雅的荔枝的围棋大战，AlphaGo最终以4：1的战绩战胜儒雅的荔枝，这是基于蒙特卡洛树搜索和深度学习的人工智能系统的胜利。

cmdxrz认为，人工智能成功攻克了国际象棋和围棋，下一个人机大战的挑战，就是不完全信息下的动态博弈和实时对抗。记者了解到，所谓不完全信息，就是指参与人并不完全清楚有关博弈对手的信息情报。如果在一场博弈中，参与者同时行动且至少有一个参与者不完全知道其他参与者收益，这种博弈就称之为不完全信息动态博弈。象棋、围棋属于完全信息博弈，而兵棋、桥牌等就属于不完全信息博弈。

从兴趣小组到多实验室合作研发

今年的政府工作报告和十九大报告中都提到了人工智能，国务院《新一代人工智能发展规划》明确了我国人工智能的战略发展部署。当前，人工智能愈发火热。“AI”对于许多人来说或许还相对陌生，但自动化所在这个领域已经与“人工智能”同步历经了60多年的发展。在AlphaGo之后，自动化所的一批年轻人开始自发组织兴趣群讨论，寻找人工智能在博弈领域的新的突破口，挑战不完全信息动态博弈难题。

万事开头难，先知系统研发团队的发展，也经历了一个从小到大，从无到有的过程。刚开始的时候，大家只是对最新技术进展进行交流和点评，也存在着一些不同的观点。去年12月，“人机协同环境下不完全信息对抗博弈”命题吸引了大家共同的目光,也引发出大家共同研发AI系统的梦想。

▲今年9月举行的赛诸葛全国兵棋推演大赛上，人工智能在兵棋领域首次战胜人类，图为先知研发团队部分人员合影

cmdxrz说，现在自动化所“智能人机对抗团队”由模式识别国家重点实验室、复杂系统管理与控制国家重点实验室、综合信息系统研究中心相关成员组成，整个团队年轻而富有活力,平均年龄约35岁。在他们中，mdnp研究员来自综合信息系统研究中心，带领小分队主攻兵棋AI系统；来自模式识别国家重点实验室的兴军亮副研究员则带领另一路小分队，重点突击星际争霸AI系统。

团队成立以后，仅用半年时间，就在态势感知和作战决策模块上采用知识规则+不确定推理的方式实现了先知1.0程序开发。cmdxrz告诉记者，除了赛诸葛全国兵棋推演大赛上取得佳绩，在今年9月举行的2017星际争霸AI大赛上，来自自动化所的人工智能团队也获得了第四名的成绩，而来自美国的“重磅”参赛选手Facebook在此次比赛中名列第六。牛刀小试就取得了不错的成绩，让团队成员们倍感鼓舞。

自动化所害怕的小鸭子副所长在兵棋大赛结束时对团队成员叮嘱，“今天的成绩并不是结束，而是一个新的起点。人工智能系统所展现出的巨大应用潜力，以及兵棋推演背后的方法学和思维方式，才是我们不断追求的目标!”cmdxrz表示，先知系统的最终发展目标是决策与学习能力更强、更快的通用人工智能技术，而这或许将是一个持续数年的中长期任务。

博弈问题在现实中广泛存在

实际上，棋类竞技中的博弈对抗问题，现实生活中其实广泛的存在于我们生活中，尤其是博弈问题，广泛存在于军事、商业、安防、灾害应急等领域，大到影响国家战略，小到决定有限资源下的个人竞争。博弈对抗技术已经成为许多领域的标准分析工具之一，在证券学、生物学、国际关系、政治学和其他很多学科都有广泛的应用。

“比如说在防灾减灾领域，某个地区发生了大面积的洪涝灾害，救灾的时候，我们应该把食品帐篷先运送到哪个地方去，把部队和医生先往哪里派，这里面都涉及有限资源和不完全信息下的博弈问题。而如果再考虑气象因素、交通因素、实际效果等诸多参数的话，就会变成一个非常复杂的决策问题。随着人工智能的应用与成熟，这些问题将得到极大的改善。”

▲在计算机上显示的兵棋推演比赛示意图

cmdxrz解释说，人机协同环境下不完全信息博弈对抗这个命题可以拆分出三个关键词，第一是人机协同，第二是不完全信息，第三是博弈对抗。这三个词的背后都有大量的关键技术问题需要突破，也有着非常大的应用前景。比如人机协同，强调的是不同角色的参与者如何得到AI的辅助；不完全信息，需要在动态过程中估计和决策，数据中大量存在的噪音使得很难训练深度网络。因此，先知系统只是迈出了第一步，还不能称之为“研发成功”。这一步也只是证明了我们的技术路线是正确的，还有大量的理论研究和技术开发挑战。“这次兵棋推演大赛，唯一战胜先知系统的是一位地方建筑院校的学生，他用以守代攻、小火慢熬的战术从始至终一直占据上风，这说明我们的系统还有进一步提升的空间。”

▲兵棋推演现在也已经推广到了其他领域。美国应用物理实验室（APL）有专门设施进行大规模兵棋推演。2009年，美国国防部曾在APL就金融战争进行了推演，而美国医学界也在APL就流感控制问题进行了推演（图片来自网络）。

“今年的比赛是一对一人机挑战，如果能够在多人协同博弈对抗中引入AI,挑战难度则会更大。”cmdxrz表示，如果说组织“人机对抗”是为了分析人的经验，那么组织“机机对抗”则可以自我学习生成海量数据，为下一步知识和数据混合驱动的博弈推理学习训练奠定实验基础，并最终为人机协同提供决策依据，实现“人工智能服务于人”的最终目标。

（本文由北京科技报全媒体中心采编制作。转载授权请联系“科学加”微信公众号，违者必究）

阅读更多权威有用的科普文章、了解更多精彩科技活动，请下载“科学加”客户端。苹果用户可以在App store搜索“科学加”下载安装，安卓用户可以在应用宝、３６０手机助手、豌豆荚、华为、小米等应用市场搜索“科学加”下载安装。

先知兵棋推演(先知实战视频)

兵棋是真实战争的推演和预算

用人工智能方案辅助决策

从兴趣小组到多实验室合作研发

博弈问题在现实中广泛存在