筆者は囲碁が好きで(といっても「下手の横好き」ですが)、これまでも本コラムの中でたびたび囲碁の話題、特にコンピュータ囲碁を取り上げてきました。2016年7月のコラム(注1)でも書いた通り近年のコンピュータ囲碁の進歩は目覚ましいものがあり、「囲碁はコンピュータでも人間には及ばない」と思われていたのも過去の話、同年3月にはGoogle傘下の企業が開発した囲碁ソフト「AlphaGo(アルファ碁)」が、世界トップクラスの囲碁棋士を打ち負かしたという衝撃的なニュースはご記憶の方も多いかと思います。その後もアルファ碁の進化は続いており、今年の10月に発表された最新バージョン「AlphaGo Zero」は、なんと先述の2016年3月時点のアルファ碁に百戦百勝するほどの力を持っているとのこと(注2)。この凄まじい進化のスピードにはただただ唖然とするほかありません。
「なぜまた囲碁の話をこのコラムで?」と思われた方も多いかと思いますが、このアルファ碁最新バージョンの特徴を見てみたところ、実は「事業投資の意思決定はAIに代替されてしまうのか、人間は何をなすべきなのか」という問題意識への対処にも通ずるポイントが見えてきたように筆者には感じられたのでした。そこで、今回のコラムでその内容を皆様にご紹介したいと思います。

      ~~~~~~~~~~~~~~~~~~~~~~~~

 まず、アルファ碁最新バージョンの仕組みについて説明します。2016年3月時点のバージョンでは、大まかに言うと過去の膨大な人間同士の対局データを読み込ませて囲碁の勝ち方を学習していきました。一方、最新バージョンではそのような人間同士の対局データは一切使用していません。行ったことは、初めに囲碁のルールと勝敗について定義し、後はアルファ碁同士の自己対局を繰り返すだけです。対局の最初のうちは、囲碁の手筋を何も知りませんからほぼデタラメな打ち手ばかりですが、対局を繰り返す中で(たまたま)勝ちにつながる局面が出てくればそれを拾い出していくことで、次第に囲碁の勝負ができるようになっていきます。このプロセスは一般的に「強化学習(reinforcement learning)」と呼ばれており、まさに自分自身が先生となって修行を積み重ねていくイメージです。しかし驚くべきはその上達速度であり、冒頭で述べた2016年3月時点のバージョンに百戦百勝したのは学習を開始してからわずか3日後の状態のものなのです。たった3日で、人間を超えたソフトを圧倒してしまったのです。もちろん、これを可能にしたのはコンピュータ・ネットワークなどのシステム基盤の発達によるところが大きいわけですが。

 このような強化学習の仕組みを前提として、先に掲げた問題意識「事業投資の意思決定はAIに代替されてしまうのか、人間は何をなすべきなのか」を考えてみます。弊社が提供しているシステム「RadMap」では、事業計画の立案・決定業務プロセスを「事業の収益構造ロジック(モデル)や評価指標を定義した上で、データに基づいた各種分析・シミュレーションを通じて意思決定につなげる」という一連のシステム機能としてカバーしております。この業務プロセスを先ほどのアルファ碁と照らし合わせてみると、「収益構造ロジック=囲碁のルール」、「評価指標=勝敗」、「データに基づいた各種分析・シミュレーション=自己対局を繰り返す強化学習」と置き換えたとすれば、確かにアルファ碁のようなAIと同じ枠組みで事業計画の立案・決定を行うことができると見なすことができるかもしれません。むしろ、事業性評価の現場での悩みの一つとして「適用するデータ(特に不確実性)の設定が難しく、データの入力の仕方にバイアスがかかり評価結果も影響を受けてしまう」ということがありますが、強化学習の仕組みを導入できれば「バイアスのないデータを用いたコンピュータ・シミュレーションを繰り返すことで、精度の高い評価結果(=事業成功の可能性や、事業成功のために必要となる数値条件・キーポイント)が得られる」というメリットがあるとも言えるでしょう。このようなデータに関する面を考慮に入れると、人の手による意思決定よりもAIによる意思決定が優れている、ということになってしまうのでしょうか?
 ちょっと待ってください。強化学習を行うに当たっては大事な前提があります。それは、囲碁の例でいうと「ルールと勝敗は客観的に定義を与えることができ、不変である」ということです。この客観性と不変性があるからこそ、同じ条件での繰り返し学習が可能になるのです。では事業計画の場合はどうでしょうか。確かに、事業計画立案・意思決定にシステムを導入するメリットの一つである「標準化」の発想としては、収益構造と評価指標をシステム上できっちり定義して継続的に運用することが挙げられます。しかし、収益構造と評価指標は、必ずしも客観的に一意に定義できるものではありません。同じビジネスであっても、どういった観点で整理するか・どのような判断軸を持っているか、は人や組織の志向や置かれている状況などによって異なります。また、これらの項目は一度定義した後で必ずしも未来永劫にわたって不変ではありません。ビジネスの構想段階や開発初期段階では、まだ不明確なことも多く収益構造はラフで評価指標も定量的なものばかりとは限りません。その後、段階が進むにつれて収益構造が具体化していき、評価指標も経済性など踏まえたより定量的なものがメインになっていきます。こういった点を踏まえると、事業計画の立案・意思決定の場面では必ずしも強化学習の仕組みを持つAIを適用すれば良い、というものではないように思います(むしろ、それは昔決めた枠組みをずっと使い続けてしまい事業環境の変化に対応できない、ということになります)。

      ~~~~~~~~~~~~~~~~~~~~~~~~

上記で述べたことをまとめると、「少なくとも収益構造や評価ポイントに相違や変化がある限り事業投資の意思決定はAIにそのまま代替されるわけではなく、人間はその相違や変化に気を配っておく必要がある」と言えます。興味深いのは、ここでは数値データ自体には触れていないない、ということです。数値データにのみこだわっていると人間はAIには勝てませんが、「その前段階で検討すべき収益構造や、数値データから算出される評価指標の解釈にもスポットライトを当て、それらの相違や変化を機敏にとらえて対処していく」ことが今後の一層の情報化社会・変化の激しい社会を生き抜いていく一つの在り方である、ということを示唆しているように思います。

(楠井 悠平)

(注1)「AI vs KKD」2016年7月インテグラートインサイト・コラム
https://www.integratto.co.jp/column/123/

(注2)「AlphaGo Zero: Learning from scratch」アルファ碁の開発企業DeepMind社の2017年10月18日付ブログ
https://deepmind.com/blog/alphago-zero-learning-scratch/