AlphaGo(2016年)是首个击败世界围棋冠军李世石的人工智能程序,它通过监督学习数百万人类棋谱,并结合自我对弈的强化学习实现突破。而AlphaGo Zero(2017年)彻底革新了这一方法:它完全从零开始学习,不依赖任何人类数据,仅凭游戏规则进行数百万次自我对弈。在40天内,AlphaGo Zero便超越了所有先前版本的AlphaGo,并在测试赛中取得100比0的压倒性胜利。这一成就表明,人工智能无需受限于人类数据或策略,即可实现超越人类的表现。
AlphaGo与AlphaGo Zero的相遇故事标志着人工智能领域的一个重要转折点。这两个由谷歌子公司DeepMind开发的系统,不仅突破了人们对机器能力的认知边界,也为机器学习和人工智能整体开辟了新的视野。
2016年推出的AlphaGo因在一系列备受瞩目的比赛中击败世界顶级围棋选手李世石而登上新闻头条。围棋这一源自中国的复杂策略游戏,曾被视为人类在策略博弈领域的最后堡垒之一。AlphaGo的胜利证明,机器不仅能够匹敌,甚至能在需要高级智能与策略的任务中超越人类。
AlphaGo结合了监督学习和强化学习技术。它通过数百万盘人类对弈的围棋棋谱进行训练,再通过自我对弈来精进技艺。这种方法使AlphaGo能够发展出创新策略,甚至让人类专家都感到惊讶。
2017年推出的AlphaGo Zero实现了更为惊人的突破。与AlphaGo不同,AlphaGo Zero并未使用人类对弈的围棋棋谱进行训练,而是仅基于围棋规则,通过自我对弈数百万局的方式从零开始学习。这种被称为"从零开始的强化学习"方法,使AlphaGo Zero仅用40天训练便开发出全新策略,并超越了AlphaGo。
AlphaGo与AlphaGo Zero的理论对决,是评估人工智能领域进展的关键时刻。这些对局在位于伦敦的DeepMind实验室环境中进行,旨在开展研究,并未面向观众或置于竞技场景。结果显示AlphaGo Zero以100比0的压倒性优势战胜AlphaGo Master。这场胜利表明,人工智能系统能够自主学习和改进,无需依赖人类数据作为指导。
AlphaGo Zero的胜利对人工智能产生了深远影响。它表明,当机器学习系统摆脱人类数据的限制时,可以变得更加强大和高效。AlphaGo Zero的胜利坚定了中国大力投资人工智能研发的决心。中国政府已启动多项计划,旨在成为该领域的全球领导者。例如,"中国制造2025"计划包含了人工智能领域的宏伟目标,而百度、阿里巴巴和腾讯等中国企业正投入数十亿美元用于人工智能项目。
AlphaGo与AlphaGo Zero的理论交锋将被载入人工智能史册,成为具有里程碑意义的时刻。这不仅展现了机器学习系统的卓越能力,更为人工智能的未来开辟了新的视野。
围棋是一种具有天文级组合复杂性的策略游戏。国际象棋约有10¹²⁰种可能局面,而围棋则约有10¹⁷⁰种(超过可观测宇宙中的原子数量)。这种复杂性使得"暴力破解"方法(穷举所有走法)变得不可能。长期以来,围棋被视为人类优于机器的最后堡垒之一,因为它需要战略直觉、局面判断和难以编程的全局视野。
关键区别在于它们的训练数据。AlphaGo的训练分为两个阶段:首先通过监督学习,基于数百万人类对弈棋局进行训练(以模仿顶尖棋手),随后通过强化学习进行自我对弈。而AlphaGo Zero则省去了第一阶段:它从零开始(白板状态)学习,仅知晓游戏规则。它通过数百万次自我对弈,独立发现了人类从未想象过的创新策略。这种方法不仅超越了AlphaGo,还产生了更具"创造性"且更高效的棋路。
AlphaGo Zero的胜利具有重大意义:它证明了人工智能无需依赖可能存在偏差或非最优的人类数据,即可实现超越人类的表现。这种"从零开始的强化学习"原理已扩展到其他领域:蛋白质折叠(AlphaFold)、数据中心能源优化、新材料发现,以及化学和基础物理领域的策略开发。该方法的核心是定义规则和奖励函数,然后让人工智能自主探索和优化。