Na última quinta-feira, a OpenAI anunciou uma demonstração de seu novo modelo de texto para vídeo, Sora, capaz de gerar vídeos de até um minuto com impressionante qualidade visual e alinhamento com os prompts dos usuários. Você pode ter se deparado com os fascinantes clipes de vídeo apresentados pela OpenAI, desde filhotes de golden retriever saindo da neve até casais passeando pelas ruas movimentadas de Tóquio. Sua reação pode ter variado entre a maravilha e a empolgação, passando pelo ceticismo ou preocupação, refletindo os diversos sentimentos que cercam a IA generativa atualmente.
Pessoalmente, fui impactado por uma mistura de admiração e curiosidade. A verdadeira pergunta que surge é: o que a liberação do Sora significa?
Em minha opinião, Sora exemplifica o mistério característico da OpenAI, especialmente notável apenas três meses após a breve demissão e retorno do CEO Sam Altman. Essa aura enigmática aumenta a expectativa em torno de cada anúncio.
Vale notar que a OpenAI opera com um modelo fechado, mantendo seus processos intencionalmente opacos. Milhões estão agora analisando cada detalhe sobre Sora — questionando como o modelo funciona, quais dados foram usados em seu treinamento, o momento de seu lançamento, potenciais aplicações e as implicações mais amplas para a indústria, a força de trabalho, a sociedade e o meio ambiente. Toda essa especulação surge de uma demonstração que não estará disponível comercialmente tão cedo, amplificando o hype em torno dela.
Simultaneamente, Sora reflete a transparência da OpenAI sobre sua missão de desenvolver inteligência geral artificial (AGI) que "beneficie toda a humanidade". A organização afirmou que está compartilhando o progresso da pesquisa do Sora antecipadamente para solicitar feedback externo e fornecer uma visão das futuras capacidades da IA. O título do relatório técnico do Sora, "Modelos de Geração de Vídeo como Simuladores de Mundo", indica que a OpenAI não está apenas lançando uma ferramenta de texto para vídeo para criativos, mas avançando na pesquisa em IA em direção à AGI — embora sua definição precisa continue indefinida.
Esse intrigante paradoxo — a mistura de mistério em torno dos esforços atuais da OpenAI e a clareza sobre sua visão de longo prazo — muitas vezes passa despercebido à medida que a conscientização pública e a adoção comercial de sua tecnologia aumentam.
Os pesquisadores por trás do Sora estão cientes de seu impacto atual e são cautelosos quanto à sua implementação em empreendimentos criativos. Aditya Ramesh, um cientista da OpenAI que co-desenvolveu o DALL-E e faz parte da equipe do Sora, expressou preocupação sobre o potencial uso indevido de vídeos altamente realistas. "Estamos sendo cautelosos na implantação e garantindo que estamos prontos antes de liberar isso para o público em geral", explicou.
No entanto, Ramesh vê o Sora como um passo vital para a frente. "Estamos empolgados em avançar a IA para razoes sobre o mundo de maneiras semelhantes aos humanos", comentou no X.
As reflexões de Ramesh sobre vídeo remontam a janeiro de 2023, durante uma entrevista retrospectiva sobre o desenvolvimento do DALL-E. Ele indicou que já estava pensando nas implicações da tecnologia de vídeo. Quando perguntei sobre seu interesse em trabalhar no DALL-E, ele destacou os aspectos únicos da inteligência relacionados à visão. "Com vídeo, você pode imaginar um modelo gerando sequências que entendem causa e efeito ao longo do tempo", observou.
Durante nossa conversa, Ramesh capturou a dualidade da OpenAI: por um lado, ele aproveitou a oportunidade de expor mais pessoas às capacidades do DALL-E, desejando um acesso mais amplo à sua tecnologia. Por outro lado, sua principal motivação como pesquisador era expandir os limites do que a IA poderia alcançar, aproveitando o sucesso de tecnologias como o GPT-2 e explorando a geração de texto para imagem para ver se a IA poderia replicar a extrapolação humana.
Em última análise, Sora não se trata apenas de vídeo.
A curto prazo, pode servir como uma ferramenta criativa com muitos desafios a serem enfrentados. No entanto, é crucial reconhecer que a OpenAI vê o Sora como parte de uma visão mais ampla. Quer você veja Sora como um "motor de física baseado em dados" simulando mundos diversos, como sugerido por Jim Fan da Nvidia, ou o critique como um empreendimento falho, semelhante a ideias obsoletas como "análise por síntese", focar apenas no Sora como uma aplicação de vídeo notável ignora os objetivos duais da OpenAI.
A OpenAI está realmente executando uma estratégia de IA generativa por meio de produtos para consumidores, iniciativas empresariais e engajamento com a comunidade de desenvolvedores. No entanto, tudo isso serve como um trampolim para alcançar sua visão de AGI.
Portanto, para aqueles curiosos sobre o propósito do Sora, lembre-se desta dualidade: enquanto a OpenAI está atualmente envolvida no mundo do vídeo, seu foco é, em última análise, uma aspiração muito mais grandiosa.