「深層学習の原理に迫る　数学の挑戦」　今泉允聡／著を読みました

深層学習の大きな謎3つ

ChatGPT、生成AIが大きな話題となっているますが、そこで使われている深層学習にはまだいくつも謎が残されています。つまりうまく動作する原理がまだよくわかっていないのです。
原理がわからないまま実用上使えるかもしれないと言うことで、どんどん開発が進んでいます。
本書では深層学習が抱える謎のうち代表的な3つにフォーカスを当てて解説しています。
原理の数学的な理解や定式化をすることで、深層学習がはらんでいるいくつもの問題を解決することが可能になります。
具体的に本書で説明されている謎とは以下の3つです。
- なぜ多層が必要なのか？
- 深層学習のネットワークが膨大なパラメータを持つのに適切に動作するのはなぜか？
- なぜパラメータの学習は可能なのか？
これらについて、一つずつ何が問題でそれに関してどのように解釈し、謎の解明にアプローチしているのかを解説しています

なぜ多層が必要なのか？

なぜ多層が必要なのかという疑問に行く前に、数学的に普遍近似定理と呼ばれている次の定理が証明されています。 ”層が２つあるニューラルネットワークは１層あたりのパラメータが十分あれば、どんな連続な関数も表現できる” というものです。
ニューラルネットワークがあらゆる連続関数も2層で表現できるなら多層は必要ないじゃないかというのがここで解説されている謎です。
この謎に関しては数10層のネットワークがデータの複雑な特徴構造をとらえたり近似誤差レートの改善に寄与することは解明されていますが、それでも100層を超えるようなネットワークの意義は十分には解明されていません。
これを解明するにはより精密な数学的議論が必要であると著者は述べています。

膨大なパラメータ数の謎

一般に機械学習においてはパラメータ数が多いと過学習をおこすという問題があります。
深層学習では過適合を起こさずに、パラメータ数が増えるほど性能が向上するという現象が観測されています。
本書ではこの過適合に関していくつかの学説が紹介されていて、現在活発に研究化されているということが分かります。

なぜパラメータの学習ができるのか

深層学習の学習では勾配降下法という手法が使用されていますが、複雑形状の損失関数に対してなぜ勾配降下法が有効に働いているのかがよくわかっていません。
これに対して、深層学習のパラメータ数を増やすことで勾配降下法で損失関数を最小にするパラメータに到達できるということが数学的に証明されています。
ではこの問題は数学的に解決されたのかというと、単に手がかりとなるだけでまだまだ謎は多く残されていると書かれています。

深層学習の謎へのアプローチ

本書では現在話題になっているAI技術の基盤である深層学習が持つ謎を丁寧に解説し、その謎がなぜ”謎”なのかと言うことをクリアにしています。
そのうえで、様々な数学的なアプローチを解説しそれでもまだ解明されていない部分が多くあることを説明しています。
タイトルに数学の挑戦とありますが、数式を使わずわかりやすくかいてありますので深層学習の研究者だけでなくエンジニアや一般の人にも強くお勧めします。
深層学習について知識がある方ならだれでも理解できるように平易に書いてあります。