Com um avanço notável na tecnologia de reconhecimento de voz, o Whisper v3 da OpenAI melhora significativamente a compreensão linguística e reduz as taxas de erro, baseando-se em impressionantes cinco milhões de horas de dados de treinamento. Este modelo inovador e de código aberto é projetado para empresas que buscam aprimorar suas experiências de atendimento ao cliente e muito mais. Apresentado recentemente no OpenAI DevDay, o Whisper v3 demonstra um desempenho aprimorado em várias línguas, notavelmente introduzindo um token de linguagem dedicado para o cantonês.
Lançado originalmente em setembro de 2022, o Whisper já se destacou por sua utilidade na conversão de trechos de áudio em texto, oferecendo funcionalidades como tradução de fala, identificação de idiomas e detecção de atividade vocal—tornando-o uma excelente escolha para assistentes de voz. Com o Whisper, as empresas podem transcrever facilmente chamadas de clientes ou criar versões baseadas em texto de conteúdo de áudio. A integração do Whisper com os avançados modelos de geração de texto da OpenAI, como o novo GPT-4 Turbo, abre oportunidades para desenvolver aplicações poderosas de dupla modal que combinam reconhecimento de voz e geração de texto de maneira fluida.
Romain Huet, chefe de experiência do desenvolvedor da OpenAI, demonstrou o potencial dessas integrações. Utilizando o Whisper para transcrever entradas de voz em texto e combinando-o com o modelo GPT-4 Turbo, ele apresentou a criação de um assistente inteligente capaz de falar, também graças à nova API de Texto para Fala.
O Whisper v3 se destaca não apenas pelo volume de dados em que foi treinado—cinco milhões de horas, um salto considerável em relação às 680.000 horas do seu predecessor—mas também por seus métodos de treinamento sofisticados. Cerca de um milhão de horas desses dados de áudio foram rotuladas de forma fraca, indicando apenas a presença de som, enquanto quatro milhões de horas foram pseudo-rotuladas através de técnicas de modelagem preditiva.
O modelo utiliza uma arquitetura Transformer, que processa sequências de tokens representando dados de áudio, decodificando-os de forma eficaz para produzir saídas de texto significativas. Em essência, ele decompõe a entrada de áudio em partes gerenciáveis, permitindo determinar com precisão o conteúdo falado.
Para atender a diferentes necessidades de aplicação, o Whisper v3 está disponível em vários tamanhos. O modelo menor, Tiny, possui 39 milhões de parâmetros e requer cerca de 1 GB de VRAM para operar. O modelo base contém 74 milhões de parâmetros e apresenta uma velocidade de processamento aproximadamente 16 vezes mais rápida do que iterações anteriores. A versão maior, chamada Large, possui impressionantes 1,55 bilhões de parâmetros e exige cerca de 10 GB de VRAM para ser implantada.
Testes extensivos em benchmarks de áudio, como Common Voice 15 e Fleurs, indicam que o Whisper v3 alcança taxas de erro significativamente mais baixas em comparação com versões anteriores lançadas em dezembro de 2022. O CEO da OpenAI, Sam Altman, expressou confiança no novo Whisper durante sua apresentação, proclamando: "Achamos que vocês realmente vão gostar."
Como Acessar o Whisper v3?
O Whisper v3 está acessível abertamente através de plataformas como Hugging Face ou GitHub, proporcionando oportunidades para utilização comercial sob a licença MIT. Isso permite que as empresas implementem o Whisper v3, desde que cumpram condições específicas estabelecidas na licença, incluindo as necessárias notificações de direitos autorais e permissões em todas as versões distribuídas.
É importante observar que, embora a licença permita um uso amplo, também a fornece sem garantias e limita a responsabilidade dos autores ou titulares de direitos autorais em relação a quaisquer problemas potenciais decorrentes de sua implementação. Embora o Whisper seja de código aberto, a OpenAI anunciou planos para suportar a versão mais recente de seu modelo de reconhecimento automático de fala através de sua API em um futuro próximo.
Embora o Whisper v3 marque um salto significativo em desempenho, a OpenAI reconhece que sua precisão pode diminuir em idiomas com dados de treinamento limitados. Além disso, persistem desafios em relação a diferentes sotaques e dialetos, que podem contribuir para o aumento das taxas de erro.