１枚の画像入力からマルチビューの姿を推定するマルチビュー推定が可能
SV3Dと他の手法との比較
Stable Video Diffusion（SVD）をベースに開発された
- Stable Video Diffusionで開発した動画生成での時間方向の一貫性を、今回は空間的な一貫性に応用している
学習に使用したデータセットはObjaverse
- ただしCC-BYライセンスのものだけを抜粋している

現在２種類のバリエーションが公開されている

SV3D_u
- 単一の画像入力に対して、オブジェクトをぐるっと一周回るような軌道でカメラを動かしたときの画像を生成する
SV3D_p (こっちの方がむつかしい設定)
- SVD3_u の機能を拡張し、単一画像入力に対して指定されたカメラパスに沿って画像を生成する

3Dメッシュの生成

今はまだ公開されていませんが３Dメッシュの出力も考えているようです。
一貫したマルチビュー画像が生成できれば、それをNeRFに入力しSigned Distance Functionに変換後BakedSDFなどでも使用されているDMTetを使えば３Ｄメッシュを出力できると思われます。また、鏡面反射を球面ガウシアンで表現し、拡散反射をランバート反射と仮定してオブジェクトがどのようにライティングされているかを推定し照明の影響を除去する。

この３D化はまだ公開されていませんが、でも映像のレベルだと応用範囲が広がりそうです。
といってもフォトリアリスティックなゲームなどに比べるとまだまだ性能を上げる必要がありそうです。

ライセンスは？

Stability AI メンバーシップに加入することで、商用利用が可
非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードして使用可能

2024-03-20

大規模言語モデル(LLM)まとめメモ

LLM 対話AI 生成AI 大規模言語モデル

　Large Language Model(LLM)の自分用メモ

このメモを書いた経緯

最近、各社から次々と新しいLLMが発表されています。
それぞれの言語モデルの特徴や違いについて簡単に自分用のメモを作っておかないと覚えきれないので作成しました。
自分の外部記憶として書き留めているので間違っている可能性がありますのでご注意ください。

Google Gemini

googleが開発したマルチモーダル生成AIモデル
input: text, image,audio, movie
output: text, image
ChatGPTはnativeマルチモーダルではない
モデルの大きさに応じて３種類ある
- Gemini Nano, Gemini Pro, Gemini Ultra
- Nanoはアンドロイドスマホ(Google Pixel)に搭載されている
Gemini Advaced 料金2900円/月
日本語OKだが、画像生成は英文で描く必要がある

Anthropic Claude 3

マルチモーダルではあるが、プロンプトとして入力した画像について説明することはできても、画像を描くことはできない
モデルの大きさに応じて３種類ある
- Opus、Sonnet、Haikuの3サイズ（Opusが最大のモデル）　この順に性能が高い
無料版のclaude.aiはClaude 3 Sonnet
月額20ドルのClaude ProにアップグレードすればOpusを利用できるようになる。
API利用可
OpenAIのGPT-4やGoogleのGeminiなどの競合するシステムを上回る性能を発揮した
2023年8月までのデータでトレーニングされている
Haiku:最も迅速かつコスト効率の高いモデルで、約1万トークンの情報や研究論文を3秒未満で読み取れる
100万トークンのコンテキストに対応
ChatGPTと比べて会話に深さがあるように感じる。ただしhullsinationは多い。
Claude APIの使い方 ClaudeのAPIを使う

Apple MM1

Maxで30Bパラメータを持つマルチモーダルLLM(MLLM)

Grok

Elon Maskが立ち上げた会社が作ったモデルデータがオープンソース化されたLLM(2024年3月17日にオープン化)
パラメーター数が3140億
X(旧Twitter)のデータでトレーニングされている

Open Release of Grok-1

MistralAI

オープンソース
Mixtral 8x7B モデルは、「Mixture of Experts」(MoE) アーキテクチャを使用

npakaさんがまとめてくださっているローカルLLM のリリース年表がわかりやすい

note.com

2024-02-24

「生成AIで世界はこう変わる」　今井翔太著を読みました

本棚生成AI

生成AIで世界はこう変わる (SB新書)

作者:今井翔太
SBクリエイティブ

Amazon

東大松尾研究室の今井さんの一般向け生成AI解説本です。本書の最後には松尾先生と今井さんの特別対談も収められています。

生成AIの現状と未来について知りたい人におすすめ

生成AIってなに？っていう人にとっては少しむつかしめの内容です。
と言っても数式が出てくるわけではないので、ChatGPTや画像生成AIについて聞いたことがありどんなことができるか知っているという程度の知識さえあれば本書を読み進むことができます。

技術の解説がわかりやすい

2章では生成AIの背後にある技術を解説しています。数式を一切使わずChatGPTがなぜ人間と”まともな”会話ができるのかを説明しています。この、”まともな”というところが重要で例えば、「明日学校行くの嫌だけどどうしたらいい？」と質問して、AIが「じゃあ大災害が起きて学校がつぶれることを祈ればどうですか？」と答えたらどう思いますか？
会話としては成立していますが、決して”まともな”返答とは言えません。
世の中にある多数のテキストを学習しただけでは上記のようなおかしな返答が返ってくるAIが出来上がってしまします。
ではどうすればもっとまともな応答ができるAIを作れるのでしょうか。
それこそまさにChatGPTが使用している技術で、それについて平易に解説してあります。

生成AIとともに歩む人類の未来

最終章では著者の主観も交えながらAIが人間の能力を超えていくような未来に人は何を考え何を大切に生きていくのか、それについて議論が展開されています。
AI関連の技術は進歩が指数関数的に早くなっているので未来はこうなるという予想は不可能です。
ほんの数年先ですらどうなるかを日々最先端の研究をしている著者でさえはっきりしたことは言えないようです。　
対談の中でもこの話題はでてきていましたが、東大の松尾先生ですら数年先も予想できないと述べています。
では我々は今どうすればいいのか、答えは本書を読めばおぼろげながら見えてきました。

世の中に生成AIの書籍が山ほどあふれていますが、その中で数少ない必読の本だと思いました。

追記：筆者の本書の執筆に関するnoteのリンクを張っておきます。

生成AIの本を執筆する者は一切の希望を捨てよ~2023年の生成AIと『生成AIで世界はこう変わる』執筆振り返り~｜今井翔太@えるエル（ImAI_Eruel）

2024-01-01

「ChatGPTの頭の中」スティーブ・ウルフラム著　を読みました

人工知能対話AI 本棚 AI

ChatGPTの頭の中 (ハヤカワ新書)

作者:スティーヴンウルフラム
早川書房

Amazon

お正月１冊目の読書はウルフラムが書いたChatGPTに関する本です。

ウルフラムと言えばあのMathematicaを開発したことで名が知られています。また、言語学の研究もしており言語モデルやニューラルネットワークにも造詣が深い人物です。
そのウルフラムがChatGPTの登場に驚くと同時に、その限界とMathematicaのような計算言語との融合による新たな可能性について述べています。

ChatGPTがなぜあれほど少ないパラメータであたかも人間のように流ちょうに言語を扱うことができるのか、ウルフラムはそれについて人類はまだそれを説明できるような科学的な知識体系を発見していないと書いています。

ただ言えるとことしてこれまで人が行う非常に高度な能力と思われていた、人間のように会話するだとか小論文を書いたりメールを書いたりするという行為は計算論的には非常に簡単で浅い行為であったということが、ChatGPTで明らかになったということです。

本書は大きく２章に分かれており、１章ではChatGPTの仕組みについてウルフラムの切り口で解説しています。２章はウルフラムらの開発するWolfram AlphaとChatGPTが融合することで、それぞれが補完しあって人間のように会話するChatGPTが計算言語を手に入れることができると論じています。

厳密に答えが出せるような問いに対してあいまいな返答や間違った答えを返すChatGPTがWolfram Alphaと対話することで論理的で正確に答えを導き出す能力を得ることができると述べています。

ページ数で言うと８割程度が１章で残りのわずかが２章及び今後の展望なのですがウルフラムのほんとに言いたいことは後半の２割に凝縮されていますので途中で投げ出さずに最後まで読むことを勧めます。

ちまたにはChatGPTの使い方とか使いこなすとこんなに便利になりますよといった本があふれていますが、本書はそういう一般書とは一線を画す、言語モデルの本質を明らかにしようとする著者の知的好奇心が凝縮された良書で、普段AIに携わる人もそうでない人も必ず読んでおく必要がある書籍だと思います。

2023-12-28

数学マンガ、「数学であそぼ」１巻読みました

数学本棚雑談

数字であそぼ。（１） (フラワーコミックスα)

作者:絹田村子
小学館

Amazon

前から気になってた数学マンガの「数学であそぼ」を年末休みで読みました。
大学の理学部に入った主人公が、いきなり大学の数学で躓くという理学部生あるあるのストーリです。
関西出身の人なら、大学の雰囲気や街の様子など懐かしい場面も多く出てきます。
数学マンガと言いつつ数学の話はほとんど出てきません。
まだ１巻しか読んでません、いわゆる青春コメディーマンガです。
理系の人なら何も考えずに楽しめると思います。
裏表紙には「数学って面白い！読めば数学が好きになる　爆笑キャンパスライフ」と書いてありますので２巻以降では数学の話がもっと出てくるかもしれません。
ちなみに、「数学ゴールデン」は全巻所有してます。

数学ゴールデン 1 (ヤングアニマルコミックス)

作者:藏丸竜彦
白泉社

Amazon

こちらは競技数学に挑む高校生の青春物語です。

2023-11-25

2023年 Advent Calendarリスト

読み物雑談

今年の気になるAdvent Calendarリストです。

今年もこの季節がやってきました。
徐々にリンクを増やしていきます。

総合リンク

Qiita Advent Calendar 2023 - Qiita

プログラミング関係

C++のカレンダー | Advent Calendar 2023 - Qiita
Processing Advent Calendar 2023 - Adventar
Pythonのカレンダー | Advent Calendar 2023 - Qiita
Visual Studio Codeのカレンダー | Advent Calendar 2023 - Qiita
C++のカレンダー | Advent Calendar 2023 - Qiita
競技プログラミングを始めたばかりの人に伝えたいことのカレンダー | Advent Calendar 2021 - Qiita
VR法人HIKKYのカレンダー | Advent Calendar 2023 - Qiita

その他

まとめ

今年も魅力的なカレンダーが沢山あります。
リストは随時更新していきます。

3D mult-view系の学習用データセットのまとめ

Objaverse-XL

NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and Pose Annotations

A Real World Dataset for Multi-view 3D Reconstruction

3Dモデルやテクスチャをダウンロードできるサイト ShareTextures

3D base mesh

Adobeリサーチ MatSynth: A Modern PBR Materials Dataset

Stability AIのStable Video 3Dの概要まとめ

特徴

詳細情報

現在２種類のバリエーションが公開されている

3Dメッシュの生成

ライセンスは？

Large Language Model(LLM)の自分用メモ

このメモを書いた経緯

META

Google Gemini

Anthropic Claude 3

Apple MM1

Grok

MistralAI

npakaさんがまとめてくださっているローカルLLM のリリース年表がわかりやすい

生成AIの現状と未来について知りたい人におすすめ

技術の解説がわかりやすい

生成AIとともに歩む人類の未来

今年の気になるAdvent Calendarリストです。

総合リンク

AI/機械学習関連

CV/CG関連

プログラミング関係

その他

まとめ

　Large Language Model(LLM)の自分用メモ