A inovadora iniciativa de IA da OpenAI, chamada “Sora”, representa um avanço significativo na tecnologia. Este modelo de IA de texto para vídeo acaba de iniciar uma fase de testes limitada com usuários, exibindo suas impressionantes capacidades por meio de vários vídeos gerados pela IA, que são surpreendentemente realistas.
Sora foi projetado para transformar comandos textuais em cenas de vídeo vívidas. A OpenAI demonstra isso com vídeos exibidos em seu site, revelando resultados impressionantes. Os comandos oferecidos ao Sora são concisos, mas descritivos; usuários que interagiram com o ChatGPT podem notar que o Sora produz resultados a partir de comandos mais curtos. Por exemplo, para criar um vídeo com mamutes lanosos, o Sora precisou de apenas um comando de 67 palavras que detalhava os animais, seu ambiente e ângulos de câmera.
Segundo a OpenAI, “o Sora pode gerar vídeos de até um minuto de duração, mantendo alta qualidade visual e alinhando-se aos comandos dos usuários.” A IA é capaz de criar cenas complexas repletas de diversos personagens, cenários variados e movimentos realistas. A OpenAI observa que Sora pode interpretar e inferir contexto adicional dos comandos recebidos.
A empresa enfatiza que “o modelo compreende não apenas os pedidos do usuário, mas também como esses elementos existem no mundo real.” Sora se destaca não apenas na representação de personagens e fundos, mas também na criação de “personagens envolventes que transmitem emoções ricas.”
Além disso, o Sora possui a funcionalidade de estender vídeos existentes ou preencher lacunas, além de gerar vídeos a partir de imagens, demonstrando flexibilidade além dos comandos de texto. Embora as imagens em suspensão sejam deslumbrantes, os vídeos são verdadeiramente cativantes em movimento. A OpenAI destacou uma variedade de vídeos gerados, desde ruas de Tóquio inspiradas no Cyberpunk até “imagens históricas” da Califórnia durante a era da Corrida do Ouro, além de um close extremo de um olho humano. Os comandos fornecidos abrangem uma variedade de temas, desde cenas animadas até fotografia da vida selvagem.
Apesar de suas impressionantes capacidades, o Sora tem limitações. Alguns vídeos exibem imperfeições, como figuras em multidões sem cabeças ou apresentando movimentos não naturais. Esses movimentos estranhos podem não ser imediatamente perceptíveis, mas se tornam evidentes ao se observar mais de perto.
Pode levar tempo até que o Sora esteja disponível ao público em geral. Atualmente, o modelo está em fase de testes com um grupo seleto de avaliadores para avaliar riscos potenciais, enquanto vários criadores de conteúdo também começam a explorar seus recursos nesses estágios iniciais de desenvolvimento.
À medida que a tecnologia de IA continua a evoluir, as expectativas em relação ao desempenho costumam ser baixas. No entanto, seja devido a expectativas modestas ou às capacidades avançadas do Sora, as impressões iniciais são tanto impressionantes quanto preocupantes. Em um mundo onde distinguir a realidade da ilusão é cada vez mais desafiador, as implicações dessa tecnologia vão além das imagens—agora os vídeos também correm o risco. O Sora não é a primeira iniciativa no domínio do texto para vídeo; modelos como o Pika também surgiram.
Preocupações em relação a esta tecnologia são ecoadas pelo popular YouTuber de tecnologia Marques Brownlee, que comentou no Twitter que “se isso não te preocupa nem um pouco, nada mais irá” em relação às demonstrações do Sora.
Se o Sora da OpenAI já está alcançando esse nível de sofisticação, é intrigante pensar em seu potencial após mais desenvolvimento e testes nos próximos anos. Embora tal tecnologia possa perturbar vários mercados de trabalho, a esperança é que, assim como o ChatGPT, seja integrada junto com a expertise humana.