Stability AIのStable Video 3Dの概要 - しんさんのブログ

Stability AIのStable Video 3Dの概要まとめ

詳細はStability AIのページを参照

ja.stability.ai

特徴

１枚の入力画像から互いに矛盾のない首尾一貫したマルチビューの画像を生成する

詳細情報

１枚の画像入力からマルチビューの姿を推定するマルチビュー推定が可能
SV3Dと他の手法との比較
Stable Video Diffusion（SVD）をベースに開発された
- Stable Video Diffusionで開発した動画生成での時間方向の一貫性を、今回は空間的な一貫性に応用している
学習に使用したデータセットはObjaverse
- ただしCC-BYライセンスのものだけを抜粋している

現在２種類のバリエーションが公開されている

SV3D_u
- 単一の画像入力に対して、オブジェクトをぐるっと一周回るような軌道でカメラを動かしたときの画像を生成する
SV3D_p (こっちの方がむつかしい設定)
- SVD3_u の機能を拡張し、単一画像入力に対して指定されたカメラパスに沿って画像を生成する

3Dメッシュの生成

今はまだ公開されていませんが３Dメッシュの出力も考えているようです。
一貫したマルチビュー画像が生成できれば、それをNeRFに入力しSigned Distance Functionに変換後BakedSDFなどでも使用されているDMTetを使えば３Ｄメッシュを出力できると思われます。また、鏡面反射を球面ガウシアンで表現し、拡散反射をランバート反射と仮定してオブジェクトがどのようにライティングされているかを推定し照明の影響を除去する。

この３D化はまだ公開されていませんが、でも映像のレベルだと応用範囲が広がりそうです。
といってもフォトリアリスティックなゲームなどに比べるとまだまだ性能を上げる必要がありそうです。

ライセンスは？

Stability AI メンバーシップに加入することで、商用利用が可
非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードして使用可能