Stability AIのStable Video 3Dの概要まとめ
詳細はStability AIのページを参照
特徴
1枚の入力画像から互いに矛盾のない首尾一貫したマルチビューの画像を生成する
詳細情報
1枚の画像入力からマルチビューの姿を推定するマルチビュー推定が可能
Stable Video Diffusion(SVD)をベースに開発された
- Stable Video Diffusionで開発した動画生成での時間方向の一貫性を、今回は空間的な一貫性に応用している
-
- ただしCC-BYライセンスのものだけを抜粋している
現在2種類のバリエーションが公開されている
- SV3D_u
- 単一の画像入力に対して、オブジェクトをぐるっと一周回るような軌道でカメラを動かしたときの画像を生成する
- SV3D_p (こっちの方がむつかしい設定)
- SVD3_u の機能を拡張し、単一画像入力に対して指定されたカメラパスに沿って画像を生成する
3Dメッシュの生成
今はまだ公開されていませんが3Dメッシュの出力も考えているようです。
一貫したマルチビュー画像が生成できれば、それをNeRFに入力しSigned Distance Functionに変換後BakedSDFなどでも使用されているDMTetを使えば3Dメッシュを出力できると思われます。
また、鏡面反射を球面ガウシアンで表現し、拡散反射をランバート反射と仮定してオブジェクトがどのようにライティングされているかを推定し照明の影響を除去する。
この3D化はまだ公開されていませんが、でも映像のレベルだと応用範囲が広がりそうです。
といってもフォトリアリスティックなゲームなどに比べるとまだまだ性能を上げる必要がありそうです。
ライセンスは?
- Stability AI メンバーシップに加入することで、商用利用が可
- 非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードして使用可能