しんさんのブログ

科学や技術のこと読書のことなど

「大規模言語モデルは新たな知能か ChatGPTが変えた世界」 岡野原大輔 著 を読みました

岡野原さんの大規模言語モデルに関する一般の人向けの解説書です。
ChatGPTが登場してからまだそれほど年月が経っていませんがそのインパクトは大きく徐々に社会の中で使われ始めているように感じます。
本書はそのChatGPTの技術の根幹をなす大規模言語モデルについての解説書です。
何ができるのか、今までの翻訳や対話ソフトと何が異なるのか、なぜ今までの言語モデルと異なり圧倒的な性能を出すことができるのか?といった疑問に対してわかりやすく解説しています。
動作原理についても数式を使わずにできるだけかみ砕いて理解できるようになっていますので、本書を読めばChatGPTの仕組みを大まかに理解できます。
コンパクトでページ数も多くないですので、ちょっと気になるという動機でも簡単に読み終わることができます。
私が本書で特に気になったのは、モデルを大きくするとそれまで解けなかった問題が解けるようになる創発という現象です。
著者はこの理由として二つの仮説を紹介しています。1つめが宝くじ仮説、もう一つが構成属性文法仮説です。
また、注意機構が短期記憶、MLPブロックが長期記憶に関係しているという記述も印象に残りました。

著者のこの分野への深い理解と多くの知識を凝縮した本書は言語モデルに興味があるすべての人にとって必読であると感じました。