Nos últimos dias, a comunidade de IA de código aberto viveu um verdadeiro turbilhão, mesmo por seus padrões acelerados.
Cronologia dos Eventos:
Em 28 de janeiro, um usuário chamado “Miqu Dev” fez o upload de uma coleção de arquivos na HuggingFace, uma plataforma de destaque para modelos de IA de código aberto. Esse upload introduziu o “miqu-1-70b,” um novo e aparentemente poderoso modelo de linguagem grande (LLM). A entrada na HuggingFace, ainda disponível no momento da redação, destacou que esse LLM utilizava o mesmo formato de prompt que o Mistral, uma renomada empresa parisiense de IA conhecida por seu modelo Mixtral 8x7b. Muitos consideram o Mixtral como o LLM de código aberto mais eficiente atualmente, sendo uma versão bem ajustada do Llama 2 da Meta.
Uma Descoberta Viral:
No mesmo dia, um usuário anônimo no 4chan (possivelmente “Miqu Dev”) compartilhou um link para os arquivos do miqu-1-70b. À medida que a notícia se espalhava, usuários no X (antigo Twitter) começaram a discutir o desempenho impressionante do modelo em tarefas comuns de LLM, conforme indicado pelos testes de benchmark, rivalizando com o GPT-4 da OpenAI no EQ-Bench.
Reações da Comunidade:
Pesquisadores em aprendizado de máquina comentaram no LinkedIn com curiosidade. Maxime Labonne, um cientista de ML no JP Morgan & Chase, questionou se "Miqu" significava "MIstral QUantized." Ele observou: “Graças a @152334H, agora temos uma versão não quantizada do miqu disponível,” insinuando um potencial de desempenho aprimorado em iterações futuras em relação ao GPT-4. A quantização é uma técnica que permite que modelos de IA operem em hardware menos poderoso ao simplificar sequências numéricas complexas.
Especulação e Confirmação:
Surgiram especulações de que "Miqu" poderia ser um modelo vazado do Mistral, dado o jeito discreto da empresa em lançar atualizações. O co-fundador e CEO da Mistral, Arthur Mensch, confirmou essa teoria, anunciando no X que um funcionário excessivamente entusiasmado de um cliente com acesso antecipado havia vazado uma versão quantizada de um modelo antigo que eles haviam treinado abertamente. Mensch explicou: “Retrainamos este modelo do Llama 2 no dia em que acessamos nosso cluster.” Em vez de exigir a remoção da postagem na HuggingFace, Mensch deixou um comentário sugerindo que o autor considerasse a devida atribuição.
Implicações para o Cenário de IA:
A mensagem de Mensch para "ficar atento!" sugere que a Mistral está desenvolvendo uma versão do modelo "Miqu" que poderia rivalizar com o GPT-4. Isso poderia marcar um momento crucial não apenas para a IA generativa de código aberto, mas para todo o cenário de IA. Desde seu lançamento em março de 2023, o GPT-4 tem sido reconhecido como o LLM mais avançado disponível, superando até mesmo os modelos Gemini, tão esperados, da Google.
O surgimento de um modelo de código aberto semelhante ao GPT-4 pode exercer uma pressão competitiva considerável sobre a OpenAI, especialmente à medida que as empresas buscam cada vez mais modelos que combinem elementos de código aberto e proprietários. Embora a OpenAI possa manter uma vantagem com seu mais rápido GPT-4 Turbo e GPT-4V (visão), a comunidade de IA de código aberto está rapidamente fechando a lacuna. A grande pergunta permanece: será que a vantagem inicial da OpenAI e suas ofertas únicas serão suficientes para mantê-la na vanguarda dos LLMs?