しんさんのブログ

科学や技術のこと読書のことなど

大規模言語モデル(LLM)まとめメモ

 Large Language Model(LLM)の自分用メモ

このメモを書いた経緯

最近、各社から次々と新しいLLMが発表されています。
それぞれの言語モデルの特徴や違いについて簡単に自分用のメモを作っておかないと覚えきれないので作成しました。
自分の外部記憶として書き留めているので間違っている可能性がありますのでご注意ください。

META

LLaMA 3を2024/4/18に発表

Meta Llama 3

  • Open-weight access model
  • パラメータ数はそれぞれ約80億個と約700億個
  • 4050億個のモデルは現在学習中
  • 15兆トークン(15 trillion tokens)で学習。custom-built 24k GPU clusterを使い学習。文脈長は8k。
  • 学習中の400B+モデルはトップLLMの性能に並ぶ
Google Gemini
  • googleが開発したマルチモーダル生成AIモデル

  • input: text, image,audio, movie

  • output: text, image

  • ChatGPTはnativeマルチモーダルではない

  • モデルの大きさに応じて3種類ある

    • Gemini Nano, Gemini Pro, Gemini Ultra
    • Nanoはアンドロイドスマホ(Google Pixel)に搭載されている
  • Gemini Advaced 料金2900円/月

  • 日本語OKだが、画像生成は英文で描く必要がある

Anthropic Claude 3
  • マルチモーダルではあるが、プロンプトとして入力した画像について説明することはできても、画像を描くことはできない

  • モデルの大きさに応じて3種類ある

    • Opus、Sonnet、Haikuの3サイズ(Opusが最大のモデル) この順に性能が高い
  • 無料版のclaude.aiはClaude 3 Sonnet

  • 月額20ドルのClaude ProにアップグレードすればOpusを利用できるようになる。

  • API利用可

  • OpenAIのGPT-4やGoogleのGeminiなどの競合するシステムを上回る性能を発揮した

  • 2023年8月までのデータでトレーニングされている

  • Haiku:最も迅速かつコスト効率の高いモデルで、約1万トークンの情報や研究論文を3秒未満で読み取れる

  • 100万トークンのコンテキストに対応

  • ChatGPTと比べて会話に深さがあるように感じる。ただしhullsinationは多い。

  • Claude APIの使い方 ClaudeのAPIを使う

Apple MM1
  • Maxで30Bパラメータを持つマルチモーダルLLM(MLLM)
Grok
  • Elon Maskが立ち上げた会社が作ったモデルデータがオープンソース化されたLLM(2024年3月17日にオープン化)
  • パラメーター数が3140億
  • X(旧Twitter)のデータでトレーニングされている

Open Release of Grok-1

MistralAI

npakaさんがまとめてくださっているローカルLLM のリリース年表がわかりやすい

note.com