Large Language Model(LLM)の自分用メモ
このメモを書いた経緯
最近、各社から次々と新しいLLMが発表されています。
それぞれの言語モデルの特徴や違いについて簡単に自分用のメモを作っておかないと覚えきれないので作成しました。
自分の外部記憶として書き留めているので間違っている可能性がありますのでご注意ください。
META
LLaMA 3を2024/4/18に発表
- Open-weight access model
- パラメータ数はそれぞれ約80億個と約700億個
- 4050億個のモデルは現在学習中
- 15兆トークン(15 trillion tokens)で学習。custom-built 24k GPU clusterを使い学習。文脈長は8k。
- 学習中の400B+モデルはトップLLMの性能に並ぶ
Google Gemini
googleが開発したマルチモーダル生成AIモデル
input: text, image,audio, movie
output: text, image
ChatGPTはnativeマルチモーダルではない
モデルの大きさに応じて3種類ある
Gemini Advaced 料金2900円/月
日本語OKだが、画像生成は英文で描く必要がある
Anthropic Claude 3
マルチモーダルではあるが、プロンプトとして入力した画像について説明することはできても、画像を描くことはできない
モデルの大きさに応じて3種類ある
- Opus、Sonnet、Haikuの3サイズ(Opusが最大のモデル) この順に性能が高い
無料版のclaude.aiはClaude 3 Sonnet
月額20ドルのClaude ProにアップグレードすればOpusを利用できるようになる。
API利用可
OpenAIのGPT-4やGoogleのGeminiなどの競合するシステムを上回る性能を発揮した
2023年8月までのデータでトレーニングされている
100万トークンのコンテキストに対応
ChatGPTと比べて会話に深さがあるように感じる。ただしhullsinationは多い。
Claude APIの使い方 ClaudeのAPIを使う
Apple MM1
- Maxで30Bパラメータを持つマルチモーダルLLM(MLLM)
Grok
- Elon Maskが立ち上げた会社が作ったモデルデータがオープンソース化されたLLM(2024年3月17日にオープン化)
- パラメーター数が3140億
- X(旧Twitter)のデータでトレーニングされている