Um novo modelo de linguagem grande (LLM) aparentemente ofuscou o GPT-4 da OpenAI apenas um mês após seu lançamento. O chatbot Claude 3.5 Sonnet, desenvolvido pela Anthropic, afirma liderar a indústria em testes de benchmark de terceiros, sendo mais rápido e econômico do que os modelos anteriores de Claude.
Entretanto, lançar um novo modelo e reivindicar superioridade é diferente de os usuários realmente experimentarem os ganhos de desempenho. (Família Google Gemini, façam nota: vocês estão sendo apontados como superiores ao antigo carro-chefe da OpenAI, GPT-4, em algumas métricas, mas o uso no mundo real conta uma história diferente.)
Em contraste, o Claude 3.5 Sonnet atraiu grande atenção desde seu lançamento, com influenciadores de IA e usuários avançados compartilhando suas experiências positivas online, destacando as impressionantes capacidades desse LLM, considerado o "mais inteligente" disponível atualmente.
Avanço nas Habilidades de Programação e Criação de Produtos
A influenciadora de IA empresarial Allie K. Miller destacou no X que o Claude 3.5 Sonnet criou um jogo totalmente jogável para ela com base apenas em uma captura de tela, realizando esse feito em menos de trinta segundos. Adicionalmente, a conta informativa no X, @TestingCatalog News, demonstrou o recém-lançado playground “Artifacts”, introduzido junto com o Claude 3.5 Sonnet, mostrando sua habilidade de executar código real para um formulário web totalmente funcional desenvolvido pelo chatbot. O modelo até recriou imagens inspiradas no filme Hackers, de 1995.
Pietro Schirano, fundador da startup de geração de imagens de IA EverArt, comentou no X como a combinação do Claude 3.5 Sonnet com a ferramenta Maestro exibiu "centelhas de AGI".
Apoio da Equipe da Anthropic
Apesar de ser apoiado por defensores do modelo, o líder de relações com desenvolvedores da Anthropic, Alex Albert, twittou sobre a crescente proficiência do Claude 3.5 Sonnet em programar e corrigir pull requests de forma autônoma. Ele sugeriu que uma porcentagem significativa de código poderia ser gerada por LLMs em um ano. Da mesma forma, a funcionária técnica da Anthropic, Maggie Vo, compartilhou no X que o Claude 3.5 Sonnet agora realiza “metade do meu trabalho... e eu não poderia estar mais feliz”.
Pressão sobre a OpenAI
Com o Claude 3.5 Sonnet superando o GPT-4 e com preços competitivos, a OpenAI enfrenta uma pressão crescente para justificar as ofertas de seu modelo. Ethan Mollick, professor da Wharton School of Business, comparou o recurso Artifacts a uma versão simplificada do Interprete de Código do GPT-4 da OpenAI. O usuário @kimmonismus foi além, afirmando que a OpenAI corre o risco de “dormir em cima da AGI”, o objetivo de desenvolver uma IA que se destaque em tarefas economicamente valiosas. Eles criticaram a empresa por anunciar novos recursos do GPT-4 que ainda não se concretizaram, como novas modalidades de voz.
Limitações Persistem
Apesar do entusiasmo em torno do Claude 3.5 Sonnet, críticos observaram que ele ainda enfrenta dificuldades com tarefas cognitivas básicas, como jogar jogo da velha. O jornalista de tecnologia Timothy B. Lee, conhecido como @binarybits no X, apontou que o modelo às vezes comete erros engraçados, compartilhando uma captura de tela em que afirma incorretamente que três quartos valem mais do que 100 centavos.
No geral, o Claude 3.5 Sonnet representa um avanço significativo para a Anthropic e para o panorama dos LLMs. Embora algumas questões persistam, o modelo demonstra que os avanços na tecnologia de IA continuam a acelerar, impulsionados pelos recursos computacionais atuais.