しんさんのブログ

科学や技術のこと読書のことなど

大規模言語モデル(LLM)まとめメモ

LLM 対話AI 生成AI 大規模言語モデル

　Large Language Model(LLM)の自分用メモ

このメモを書いた経緯

最近、各社から次々と新しいLLMが発表されています。
それぞれの言語モデルの特徴や違いについて簡単に自分用のメモを作っておかないと覚えきれないので作成しました。
自分の外部記憶として書き留めているので間違っている可能性がありますのでご注意ください。

META

LLaMA 3を2024/4/18に発表

Open-weight access model
パラメータ数はそれぞれ約80億個と約700億個
4050億個のモデルは現在学習中
15兆トークン(15 trillion tokens)で学習。custom-built 24k GPU clusterを使い学習。文脈長は8k。
学習中の400B+モデルはトップLLMの性能に並ぶ

Google Gemini

googleが開発したマルチモーダル生成AIモデル
input: text, image,audio, movie
output: text, image
ChatGPTはnativeマルチモーダルではない
モデルの大きさに応じて３種類ある
- Gemini Nano, Gemini Pro, Gemini Ultra
- Nanoはアンドロイドスマホ(Google Pixel)に搭載されている
Gemini Advaced 料金2900円/月
日本語OKだが、画像生成は英文で描く必要がある

Anthropic Claude 3

マルチモーダルではあるが、プロンプトとして入力した画像について説明することはできても、画像を描くことはできない
モデルの大きさに応じて３種類ある
- Opus、Sonnet、Haikuの3サイズ（Opusが最大のモデル）　この順に性能が高い
無料版のclaude.aiはClaude 3 Sonnet
月額20ドルのClaude ProにアップグレードすればOpusを利用できるようになる。
API利用可
OpenAIのGPT-4やGoogleのGeminiなどの競合するシステムを上回る性能を発揮した
2023年8月までのデータでトレーニングされている
Haiku:最も迅速かつコスト効率の高いモデルで、約1万トークンの情報や研究論文を3秒未満で読み取れる
100万トークンのコンテキストに対応
ChatGPTと比べて会話に深さがあるように感じる。ただしhullsinationは多い。
Claude APIの使い方 ClaudeのAPIを使う

Apple MM1

Maxで30Bパラメータを持つマルチモーダルLLM(MLLM)

Grok

Elon Maskが立ち上げた会社が作ったモデルデータがオープンソース化されたLLM(2024年3月17日にオープン化)
パラメーター数が3140億
X(旧Twitter)のデータでトレーニングされている

Open Release of Grok-1

MistralAI

オープンソース
Mixtral 8x7B モデルは、「Mixture of Experts」(MoE) アーキテクチャを使用

npakaさんがまとめてくださっているローカルLLM のリリース年表がわかりやすい