A Stability AI expande suas ofertas de modelos de IA generativa com o lançamento do Stable Video 3D (SV3D). Como o nome indica, o SV3D é uma ferramenta de vídeo de IA generativa projetada para renderizar vídeos em 3D. Baseado na tecnologia fundamental do Stable Video, que permite aos usuários criar vídeos curtos a partir de imagens ou prompts de texto, o SV3D aprimora as capacidades de vídeo para síntese de novas vistas e geração em 3D, apresentando melhorias significativas em relação ao anterior modelo Stable Video Diffusion.
Com o SV3D, a Stability AI adiciona profundidade significativa à sua tecnologia de geração de vídeo, permitindo a criação e transformação de malhas 3D de múltiplas vistas a partir de uma única imagem de entrada. Este modelo já está disponível para uso comercial com uma assinatura profissional da Stability AI, custando $20 por mês para criadores e desenvolvedores que ganham menos de $1 milhão anualmente. Para fins não comerciais, os usuários podem baixar os pesos do modelo no Hugging Face.
Casos de Uso: Criação de Jogos e E-Commerce
“Ao adaptar nosso modelo Stable Video Diffusion de imagem para vídeo com condicionamento de caminho de câmera, o Stable Video 3D gera vídeos de múltiplas vistas de um objeto,” observou a empresa em um post no blog sobre o novo modelo. “O Stable Video 3D é particularmente valioso para a geração de ativos 3D no setor de jogos,” disse Varun Jampani, pesquisador principal da Stability AI. “Ele também produz vídeos orbitais de 360 graus que aprimoram a experiência de compra imersiva no e-commerce.”
De Stable Zero123 a SV3D
A Stability AI é amplamente reconhecida por seus modelos de IA generativa de texto para imagem, incluindo SDXL e Stable Diffusion 3.0, este último atualmente em pré-visualização de pesquisa. O modelo open-source Stable Diffusion 1.5 fundamenta muitas plataformas de geração de imagens e vídeos de IA, como Runway e Leonardo AI.
Em dezembro de 2023, a Stability AI lançou o modelo Stable Zero123, que introduziu novas capacidades para a criação de imagens em 3D. Emad Mostaque, fundador e CEO da Stability AI, afirmou que este modelo foi o primeiro de uma série focada em tecnologias 3D. O SV3D adota uma abordagem diferente para a geração 3D em comparação ao Stable Zero123. “O Stable Video 3D serve tanto como sucessor quanto como melhoria do nosso modelo anterior, Stable Zero123,” explicou Jampani. “Este novo modelo emprega uma rede de síntese de novas vistas que gera várias imagens de novas vistas a partir de uma única entrada.”
Ao contrário do Stable Zero123, que depende do Stable Diffusion para produzir uma imagem por vez, o SV3D aproveita os modelos de Stable Video Diffusion para gerar várias novas vistas simultaneamente, resultando em qualidade superior e geração de malhas 3D mais eficaz a partir de uma imagem única.
Visões Consistentes de Qualquer Ângulo
Um artigo de pesquisa da Stability AI discute técnicas para gerar visuais em 3D a partir de uma única imagem por meio da difusão de vídeo latente. “Avanços recentes em geração 3D adaptam modelos generativos 2D para síntese de novas vistas (NVS) e otimização 3D,” afirma o relatório. No entanto, muitos métodos existentes enfrentam desafios com perspectivas limitadas e saídas inconsistentes.
A principal força do SV3D reside em sua capacidade de fornecer imagens de múltiplas vistas de um objeto, oferecendo perspectivas coerentes de vários ângulos. O artigo de pesquisa enfatiza esse avanço, afirmando: “Diferente de abordagens anteriores que lutam com visões restritas e inconsistências, o Stable Video 3D fornece visões coerentes de qualquer ângulo com generalização eficaz.” Além de aprimorar a síntese de vistas, o SV3D visa otimizar malhas 3D. Sua consistência de múltiplas vistas permite a geração de malhas 3D de alta qualidade diretamente dos outputs produzidos.
“O Stable Video 3D utiliza sua consistência de múltiplas vistas para otimizar Campos Neurais de Radiação 3D (NeRF) e representações de malhas, melhorando significativamente a qualidade das malhas 3D geradas,” afirmou a Stability AI em seu anúncio.
Duas Variedades: SV3Du e SV3Dp
O SV3D está disponível em duas variantes, cada uma atendendo a casos de uso distintos. O SV3Du gera vídeos orbitais a partir de entradas de imagem única, sem exigir condicionamento de câmera. O condicionamento de câmera envolve input adicional, muitas vezes uma imagem ou parâmetros relacionados a perspectivas de câmera, orientando o processo de geração. Por outro lado, o SV3Dp suporta tanto imagens únicas quanto vistas orbitais, permitindo aos usuários criar vídeos 3D ao longo de caminhos de câmera especificados.