AlphaGo(2016年)は、何百万もの人間の対局を教師あり学習し、自身との対局による強化学習を組み合わせることで、世界チャンピオンの李世乭を破った初のAIプログラムでした。AlphaGo Zero(2017年)は、いかなる人間のデータも使わず、ゼロから学習することでこのアプローチに革命を起こしました。与えられたのはゲームのルールだけで、自身との対局を何百万回も繰り返しました。わずか40日で、AlphaGo Zeroは過去のすべてのAlphaGoバージョンを凌駕し、テスト対局で100対0で勝利しました。この勝利は、AIが人間のデータや戦略に制限されることなく、超人的なパフォーマンスを達成できることを示しました。
AlphaGo と AlphaGo Zero の出会いの物語は、人工知能 (AI) の分野における重要な転換点を示しています。 Google の子会社である DeepMind によって開発されたこれら 2 つのシステムは、これまで機械で可能だと考えられていた限界を押し広げただけでなく、機械学習と AI 一般の新たな可能性を切り開きました。
2016 年に発売された AlphaGo は、次の勝利を収めて話題になりました。イ・セドル、一連の注目度の高い試合で、世界最高の囲碁プレイヤーの一人です。中国発祥の複雑な戦略ゲームである囲碁は、戦略ゲームにおける人類の優位性を示す最後の砦の1つと考えられていました。そこにはアルファ碁の勝利高度な知性と戦略を必要とするタスクにおいて、機械は人間に匹敵するだけでなく、人間を超えることができることを実証しました。
AlphaGo は次の組み合わせを使用しました。教師あり学習そして強化学習。彼は人間が打った何百万もの囲碁ゲームで訓練を受け、その後自分自身と対局することでスキルを磨きました。このアプローチにより、AlphaGo は革新的な戦略を開発し、人間の専門家さえも驚かせることができました。
2017 年に導入された AlphaGo Zero は、さらに素晴らしい進歩を表しました。 AlphaGo とは異なり、AlphaGo Zero は人間がプレイする囲碁ゲームで訓練されていません。代わりに、彼は囲碁のルールだけを使ってゼロから囲碁を学び、自分自身と何百万回も対局しました。として知られるこのアプローチは、ゼロからの強化学習により、AlphaGo Zero はまったく新しい戦略を開発し、わずか 40 日間のトレーニングで AlphaGo を上回る成績を収めることができました。
AlphaGo と AlphaGo Zero の間の理論上の会合は、AI 分野の進歩を評価する重要な瞬間でした。これらの試合は、ロンドンに拠点を置く DeepMind の実験室環境で行われました。これらは研究目的で行われたものであり、聴衆の前や競技環境で行われたものではありません。結果は、AlphaGo Zero が AlphaGo Master に対して 100 対 0 の勝率で圧倒的な優位性を示しました。この勝利は、AI システムが人間のデータを必要とせずに自律的に学習し、改善できることを実証しました。
AlphaGo Zero の勝利は AI に重大な影響を与えました。これは、機械学習システムがさらに強力で効果的になる可能性があることを示しました。人間のデータの制約から解放される。 AlphaGo Zeroの勝利は、AIの研究開発に多額の投資をするという中国の決意を強めた。中国政府は、この分野で世界のリーダーになるために、すでにいくつかの取り組みを実施している。たとえば、「中国製造 2025」計画には AI に関する野心的な目標が含まれており、バイドゥ、アリババ、テンセントなどの中国企業は AI プロジェクトに数十億ドルを投資しています。
AlphaGo と AlphaGo Zero の理論上の会合は、極めて重要な瞬間として AI の歴史に残るでしょう。これは、機械学習システムの優れた機能を実証しただけでなく、AI の将来に新たな展望をもたらしました。
囲碁は、天文学的な組み合わせの複雑さを持つ戦略ゲームです。チェスが約10¹²⁰の可能な局面を持つ一方、囲碁は約10¹⁷⁰もの局面を持ちます(これは観測可能な宇宙の原子数よりも多い)。この複雑さは、「総当たり」アプローチ(すべての手の網羅的な探索)を不可能にします。長い間、囲碁は、戦略的な直感、ポジション評価、そしてプログラミングが難しい大局観を必要とするため、人間が機械に対して優位性を持つ最後の砦の一つと考えられていました。
鍵となる違いは、その学習データにあります。AlphaGoは2段階で学習しました。まず、人間がプレイした数百万の対局による教師あり学習(トッププレイヤーを模倣するため)、次に自身との対局による強化学習です。AlphaGo Zeroは最初の段階を排除しました。それは白紙状態から学習し、ゲームのルールだけを知っていました。自身との対局を数百万回繰り返すことで、人間が想像したことのない革新的な戦略を独自に発見しました。このアプローチはAlphaGoを凌駕しただけでなく、より「創造的」で効率的なゲームプレイを生み出しました。
AlphaGo Zeroの勝利は大きな意味を持ちます。それは、AIが潜在的に偏っていたり、最適とは限らない人間のデータに依存することなく、超人的なパフォーマンスを達成できることを示しています。この「ゼロからの強化学習」の原則は、他の分野にも拡張されています:タンパク質の折りたたみ(AlphaFold)、データセンターのエネルギー最適化、新素材の発見、化学や基礎物理学における戦略の開発などです。この方法は、ルールと報酬関数を定義し、その後はAI自身に探索と最適化を任せるというものです。