Se você acompanha influenciadores ou criadores de IA nas redes sociais, provavelmente notou uma onda de empolgação em torno de um novo modelo de geração de vídeos com inteligência artificial chamado “Kling”.
Kling gera vídeos altamente realistas a partir de prompts de texto e configurações no aplicativo, comparável ao modelo de IA da OpenAI, Sora, que atualmente está em beta fechado e foi compartilhado seletivamente com alguns artistas e cineastas para testes, principalmente para explorar seus usos controversos.
Recentemente, Kling demonstrou suas capacidades no YouTube ao replicar "air head", um dos primeiros vídeos criados com Sora pela agência criativa Shy Kids.
O que é Kling e suas origens?
De acordo com o South China Morning Post (SCMP), Kling foi desenvolvido pela Kuaishou Technology, a empresa por trás do Kuaishou, o segundo aplicativo de vídeo curto mais popular da China (conhecido como Kwai fora da China), com 400 milhões de usuários ativos diários (DAUs). Ele fica atrás apenas do Douyin, a versão chinesa do TikTok, que possui 600 milhões de DAUs. Esse alto engajamento torna Kling particularmente atraente, potencialmente elevando a posição da Kuaishou em relação ao Douyin.
O SCMP destaca que o modelo de IA Kling, atualmente em fase de testes, pode transformar texto em clipes de vídeo de até 2 minutos, com resolução de 1080p, suportando várias proporções de aspecto. Ele interpreta prompts para criar vídeos que refletem cenários reais ou cenas imaginativas.
Fontes citadas pela Perplexity afirmam que Kling utiliza um exclusivo Autoencoder Variacional 3D (VAE) para reconstrução facial e corporal, capturando expressões e movimentos detalhados a partir de uma única imagem corporal completa. Isso é aprimorado por um mecanismo de atenção conjunta espaço-temporal 3D, permitindo que o modelo lide com cenas complexas respeitando as leis da física.
Como acessar Kling e seu custo
Kling é gratuito através dos aplicativos Kuaishou, Kwai e KwaiCut (este último é um concorrente de edição de vídeo do CapCut do TikTok). No entanto, usuários fora da China podem enfrentar desafios de acessibilidade; relatórios indicam que um número de telefone chinês é necessário para baixar e usar o aplicativo.
A sócia da a16z, Justine Moore, sugeriu uma solução usando um número de telefone descartável pelo aplicativo KwaiCut. O cineasta estadunidense Dustin Hollywood também recomendou utilizar o ChatGPT para traduzir menus e interfaces do aplicativo para não falantes de chinês.
Capacidades do Kling
Usuários iniciais relataram que Kling se destaca na criação de vídeos imersivos e realistas em alta resolução em vários gêneros, desde sequências de ação até recreações de tiro em primeira pessoa e cenários de alta fantasia, reminiscentes de House of the Dragon ou Game of Thrones.
Dustin Hollywood menciona que gerar um vídeo baseado em um prompt de complexidade “intermediária” leva cerca de dois minutos. No entanto, ele observa algumas limitações, especialmente na representação precisa de raça e cor de pele, similares aos desafios enfrentados pelas capacidades de geração de imagens da IA Gemini do Google.
Apesar dessas desvantagens, Kling está causando alvoroço na comunidade cinematográfica, levando muitos, incluindo Hollywood, a reconsiderar suas opiniões sobre Sora e a estratégia cautelosa de distribuição da OpenAI.
O impacto do Kling no cenário de vídeos com IA
O surgimento do Kling levanta questões sobre seu potencial para forçar provedores de modelos de vídeo com IA baseados nos EUA, como OpenAI, Runway e Pika, a aprimorar suas ofertas em termos de qualidade e resolução. Resta saber se eles conseguem se adaptar rapidamente para atender ou superar o que Kling oferece.
Para quem se interessa por filmmaking com IA ou pela indústria cinematográfica em geral, a introdução do Kling é, sem dúvida, uma evolução empolgante. Esperamos uma liberação total nos EUA, sem as atuais restrições de verificação por número de telefone.