(①の続き)
筆者の新井紀子さんは「ロボットは東大に合格できるか」という、人工知能プロジェクトの創始者であり、2011年以降、通称「東ロボくん」の開発をすすめるなかで、数々の教科を学習させ、6,7年でMARCHレベルの大学に合格させる実力を付けさせた、いわば第一人者です。しかし、氏がそもそもこのプロジェクトの立ち上げに際して、ロボットが東大に合格できるかどうかというよりも、人工知能(AI)ができることとできないことの線引きをはっきりさせ、そこから人間の可能性を新たに考え直してみたいという動機のほうが強かったことが記されており、そこが私の興味を惹くところでもありました。
さて、読みすすめていくなかで、「AIに学習させる方法は原理的にこれこれこうであるから、したがってある領域の問題は得意で、べつの領域の問題は苦手」ということの具体例が例示されていて、その結果大学入試の模試で偏差値60前後の高スコアを叩き出した経緯が描かれているわけですが、私が興味を持ったところをこれからかいつまんでお伝えできればと考えています。
そもそも、いま世界中で開発されているAIの学習経路というのは、たとえ世界の多数の研究者の手にかかっていても、道筋は一本で、複数の手法があるわけではなさそうなことがうかがえます。
たとえばイチゴの画像をみて、これはイチゴであるかそうでないかの判断をする場合に、人間であればせいぜい10個のイチゴをみて、それがイチゴなのかそうでないのかを判断できるのが、AIだと実用に堪え得る精度では千や万の単位ではたりず、場合によっては億の単位でイチゴの画像データを取り込む必要があるというんですね。
私はその学習の手順を知って非常に驚きました。まず「これがイチゴだよ」とAIに知ってもらうための「教師データ」というものをひとの手で入力します。イチゴの写る大量の画像データを取り込んで、それからイチゴの写っている画像を「どの位置に、どの色が、どの輝度で写っているのか」を0と1で表現し、膨大な0と1の列(ピクセル値行列)をつくるのだそうです。そしてイチゴの形、種と実の色や輝度のコントラスト、種からできる影などのいくつかの特徴や要素に分類したうえで、イチゴとそうではないものの差異をそれぞれのデータから数値化するようです。その数値化されたものの和によってAI自身はイチゴであるか、それともそうではないかということを確率的に判断できる、ということのよう。
この学習プロセスを知ると、AIはイチゴ1つ学ぶのにそんな複雑な手順を経ているのかと驚きます。
もっとも「ディープラーニング」という方法でイチゴなどの画像検体処理では短期間で飛躍的に正しく認識できるようになったようですが、手順としてはそういうプロセスをたどるのです。
ちなみに「ディープラーニング」ということばも最近では相当世間に知れ渡ってきて、なんだか「勝手にAI自身がものを考えて学習し、人間にわからないような正答を導き出す」ようなイメージがありますが、違うのだそうです。著者がその反論として言いたいことを私なりに解釈すると、ディープラーニングとは、あらかじめ「これはイチゴかどうか」などの具体的な問題のフレームがあって、そこでイチゴの画像なり入力されたデータなりを細かい要素に分けて数値化する手続きを踏んで、そのターゲットになるものを短期に計算、認識、判断することにおいての技術なのであって、そもそもフレームのはっきりしない事柄や数値化されていない事柄に関してはどこの国の研究者が開発したAIであっても、ディープラーニングは無効なのだということです。
たとえば、いまの政治の混迷をどうするか? あるいは、山田くんは花子さんのことがこれから好きになるかどうか?勝手に問題を考えてみましたが、おそらくこの手の問題はAIには無理なのでしょう。
では、これからgoogleなどが展開する、いわゆる「ビックデータ」をもとに膨大な過去からのデータを入力し数値化していけばいいんじゃないのという疑問も当然湧きます。いろんな分野でそして細密にデータを集積して数値化していけば、2030年代か40年代かわからないけど、そのうちAIが人間の知能を超えるXデーは来るんじゃないの?と思う方もいらっしゃるでしょう。しかし、そもそも世界は人間の価値判断を含むものまですべて数値化できるのか?それからいったん要素に還元しておいて、部分の特徴から全体を認識するAIの方法そのものは、人間の認識の仕方と逆なのではないか?という問題があります。
また、AI技術で駆使される数学は論理と確率と統計ですが、新井氏はAIは言葉の認識において、指し示されたものの意味が私たち人間のようには分かっていないといいます。一例を挙げますと、すでにAI技術として私たちにも身近なgoogleの自動翻訳があります。それをスマホで入力し、「私は先週山口と広島へ行った。」の文を英語翻訳にしますと、”I went to Yamaguchi and Hiroshima last week.”と正しく出てきます。ところが、山口というのを地名ではなくて人名とすると、正しくは”I went to Hiroshima with Yamaguchi last week.”とならなくてはなりません。でも実際にはそうならない。現時点でもそうです。かりに、データ上、山口と広島は隣接する県だからどちらも地名だとAIが判断しやすいのなら、山口を「山際」というようにどうも地名ではなさそうでひとの名前っぽい単語に変えてみても、結果は同じで、”I went to Yamagiwa and Hiroshima last week.” になります。
また、”How many children do you have?”を日本語に翻訳させてみますと、「あなたはどのように多くの子どもがありますか?」となります。意味不明です。後者のほうはビックデータを詰め込めばいずれ早期に解決できるでしょうが、さて前者はどうなのでしょう。
ここは私見ですが、まず、山際という名前は地名ではなく人名だ、という判断をさせるためのデータを大量に必要とするかもしれません。山口となると地名でもあるし、ひとの名字でもけっこうある。ここは両方のデータを集めて、山口と広島は隣接県だから確率的にどちらも地名と判断させるか、それとも山口は人名でもあるので2通りの解を導かせるか。あるいは、山田と広島ならば、はてまた山形と広野ならば?などなど、同じ文の構造(だれが○○と○○に行った)を持っていてもその中身の意味(地名か人名か)をAIは人間のように峻別できず、確率的に判断するしかないようなのです。
ところが、私たちはたとえば「先週山口と広島に行ったよ」という相手の発言を、私と相手のあいだで山口という共通の知り合いがいるかどうかに関する文脈を踏まえながら受け止めるわけでしょう。相手の言うことを誤解する場合もあるわけですが、間違って認識するとしても、言語によって発せられた以外のこと、その背景となるものも同時に認識するのが私たちではないでしょうか。これをふくめてこそ意味がわかる・わからないになるはずです。
次回もう少し、AIが不得手なことの具体例を挙げながらAIができない質的な領域のことについて著者の主張に迫りたいと思います。それでは。
コメントを残す