Avaliações independentes não conseguiram replicar os métricas de desempenho anteriormente compartilhadas por Matt Shumer, cofundador e CEO da startup de escrita em IA HyperWrite, sobre o Reflection 70B. Como resultado, Shumer enfrenta acusações de fraude no X.
Um novo concorrente surgiu no cenário da IA: Matt Shumer anunciou o Reflection 70B, um modelo de linguagem grande (LLM) baseado no Llama 3.1-70B Instruct de código aberto da Meta. Este modelo incorpora uma técnica inovadora de autorregulação de erros, apresentando um desempenho impressionante em benchmarks de terceiros.
Em um post no X, Shumer declarou o Reflection 70B “o melhor modelo de IA de código aberto do mundo.” Ele compartilhou um gráfico de desempenho de benchmark, destacando os resultados superiores do modelo.
Testes Rigorosos e Desempenho
O Reflection 70B passou por testes extensivos usando benchmarks como MMLU e HumanEval, com o Decontaminator da LMSys garantindo resultados livres de contaminação. Os resultados demonstram que o Reflection supera consistentemente modelos da série Llama da Meta e compete de perto com modelos comerciais líderes.
Os usuários podem experimentar este modelo em primeira mão no site de demonstração. No entanto, Shumer observou que o anúncio gerou um tráfego significativo, e sua equipe está rapidamente adquirindo GPUs adicionais para atender à demanda.
Capacidades Únicas do Reflection 70B
Shumer destacou que o Reflection 70B oferece vantagens distintas, especialmente na identificação e correção de erros. Ele explicou: “Os LLMs muitas vezes alucinam sem a capacidade de se corrigir. E se um LLM pudesse aprender a reconhecer e corrigir seus próprios erros?”
Essa visão levou ao nome “Reflection”, já que o modelo pode avaliar sua precisão antes de apresentar as respostas ao usuário. Sua vantagem está na "reflexão ajustada", uma técnica que permite identificar falhas em seu raciocínio e corrigi-las antes de finalizar uma resposta.
O Reflection 70B introduz tokens especiais para raciocínio estruturado e correção de erros, permitindo uma interação fluida com o usuário. Durante a inferência, o modelo fornece saídas de raciocínio dentro de tags designadas, possibilitando correções em tempo real quando identifica erros.
A demonstração inclui sugestões de prompts, como contar a letra “r” em “Strawberry” e determinar qual número é maior, 9.11 ou 9.9—tarefas que muitos modelos de IA, incluindo bem conhecidos, frequentemente erram. Em nossos testes, o Reflection 70B eventualmente forneceu a resposta correta após um breve atraso.
Essa funcionalidade torna o modelo particularmente valioso para tarefas que requerem alta precisão, pois separa o raciocínio em etapas distintas para uma maior exatidão. O Reflection 70B está disponível para download via Hugging Face, com acesso à API esperado para hoje através da Hyperbolic Labs.
Expectativa para o Reflection 405B
O lançamento do Reflection 70B é apenas o começo. Shumer anunciou que um modelo ainda maior, o Reflection 405B, será revelado na próxima semana. Ele mencionou esforços contínuos para integrar o Reflection 70B ao principal produto assistente de escrita em IA da HyperWrite, afirmando: “Compartilharei mais sobre isso em breve.”
O Reflection 405B pretende superar até mesmo os melhores modelos de código fechado atualmente disponíveis. Shumer também indicou que um relatório detalhado sobre o processo de treinamento e benchmarks será publicado, oferecendo insights sobre as inovações por trás da série Reflection.
Contribuição de Dados Sintéticos pela Glaive
Um fator vital para o sucesso do Reflection 70B é o dado sintético gerado pela Glaive, uma startup focada na criação de conjuntos de dados específicos para casos de uso. A plataforma da Glaive permite o treinamento rápido de modelos de linguagem pequenos e direcionados, abordando um gargalo significativo no desenvolvimento de IA: a disponibilidade de dados específicos de alta qualidade.
Produzindo conjuntos de dados sintéticos adaptados a necessidades específicas, a Glaive permite que empresas ajustem modelos de forma eficiente e econômica. A empresa já obteve sucesso com modelos menores, como um modelo de 3B parâmetros que superou concorrentes de código aberto maiores em tarefas como HumanEval. A Spark Capital apoiou a Glaive com um investimento seed de $3.5 milhões, apoiando sua visão de um ecossistema de IA democratizado.
Aproveitando a tecnologia da Glaive, a equipe do Reflection gerou dados sintéticos de alta qualidade, acelerando dramaticamente o desenvolvimento. Segundo Shumer, o processo de treinamento levou três semanas, envolvendo cinco iterações do modelo, com um conjunto de dados personalizado criado utilizando os sistemas da Glaive.
Histórico da HyperWrite
Embora pareça que o Reflection 70B surgiu de repente, Shumer tem estado imerso no setor de IA há anos. Ele co-fundou o que inicialmente se chamava Otherside AI em 2020 com Jason Kuperberg em Melville, Nova York. A empresa ganhou tração com o HyperWrite, seu produto principal, que evoluiu de uma extensão do Chrome para elaboração de emails para um assistente de escrita em IA abrangente, capaz de redigir ensaios e organizar emails. Em novembro de 2023, a HyperWrite contava com dois milhões de usuários, garantindo aos fundadores um lugar na lista “30 Under 30” da Forbes.
Em março de 2023, a HyperWrite garantiu $2.8 milhões de investidores, incluindo o Madrona Venture Group, permitindo a introdução de recursos inovadores impulsionados por IA que transformam navegadores da web em assistentes virtuais para diversas tarefas.
Shumer enfatiza que a precisão e a segurança permanecem primordiais para a HyperWrite, especialmente à medida que se aprofunda em automações complexas. A plataforma refinada continuamente sua ferramenta de assistente pessoal, refletindo o mesmo cuidado com precisão e responsabilidade encontrado no Reflection 70B.
Perspectivas Futuras para os Modelos HyperWrite e Reflection
Olhando para o futuro, Shumer planeja avanços ainda maiores para a série Reflection. Com o lançamento iminente do Reflection 405B, ele acredita que este superará significativamente o desempenho dos modelos proprietários como o GPT-4o da OpenAI.
Isso representa desafios não apenas para a OpenAI, que está supostamente buscando novos investimentos substanciais de grandes empresas como Nvidia e Apple, mas também para outros provedores de modelos de código fechado, como Anthropic e Microsoft.
À medida que o cenário de IA generativa evolui, o equilíbrio de poder está mudando mais uma vez. A estreia do Reflection 70B marca um momento crucial para a IA de código aberto, oferecendo a desenvolvedores e pesquisadores acesso a uma ferramenta poderosa que rivaliza com modelos proprietários. Com sua abordagem inovadora para raciocínio e correção de erros, o Reflection pode estabelecer um novo padrão para as capacidades dos modelos de código aberto.