O GAIA Benchmark: A IA de Próxima Geração Enfrenta Desafios do Mundo Real

Home Notícias de IA O GAIA Benchmark: A IA de Próxima Geração Enfrenta Desafios do Mundo Real

Updated on novembro 27 2023

Um novo benchmark de inteligência artificial, GAIA, foi criado para avaliar se chatbots como o ChatGPT conseguem exibir raciocínio e habilidades semelhantes aos humanos em tarefas cotidianas. Desenvolvido por uma equipe da Meta, Hugging Face, AutoGPT e GenAI, o GAIA apresenta perguntas do mundo real que exigem habilidades fundamentais, como raciocínio, manuseio de múltiplas modalidades, navegação na web e proficiência em ferramentas, conforme descrito no artigo dos pesquisadores publicado no arXiv.

Os pesquisadores afirmam que as questões do GAIA são “conceptualmente simples para humanos, mas desafiadoras para a maioria das IAs avançadas.” Em seus testes, os participantes humanos alcançaram uma impressionante pontuação de 92%, enquanto o GPT-4 com plugins obteve apenas 15%.

"Essa notável disparidade de desempenho contrasta com a recente tendência de modelos de linguagem grandes [LLMs] superarem humanos em tarefas especializadas, como direito ou química,” afirmam os autores.

GAIA Foca na Competência Humana, Não na Especialização

Diferente de benchmarks tradicionais que enfatizam tarefas difíceis para os humanos, os pesquisadores defendem um foco nas tarefas que revelem a capacidade de uma IA de igualar a robustez do humano médio. A equipe do GAIA elaborou 466 perguntas do mundo real com respostas claras. Destas, 300 são mantidas em sigilo para contribuir com um leaderboard público do GAIA, enquanto 166 perguntas e respostas estão disponíveis como um conjunto de desenvolvimento.

“Resolver o GAIA representaria um marco na pesquisa de IA,” diz o autor principal, Grégoire Mialon, da Meta AI. “Acreditamos que superar os desafios apresentados pelo GAIA é um passo fundamental em direção à próxima geração de sistemas de IA.”

A Diferença de Desempenho entre Humanos e IAs

Atualmente, a maior pontuação no GAIA é detida pelo GPT-4 com plugins selecionados manualmente, alcançando 30% de precisão. Os criadores do benchmark sugerem que uma IA capaz de resolver o GAIA poderia ser classificada como possuindo inteligência geral artificial (AGI) em um prazo razoável.

“O artigo critica a tendência de testar IAs com exames complexos de matemática, ciência e direito, observando que tarefas que representam desafios para os humanos podem não ser necessariamente difíceis para sistemas modernos,” explicam os autores.

O GAIA enfatiza questões práticas, como “Qual cidade sediou o Festival Eurovisão de 2022, segundo o site oficial?” e “Quantas imagens estão listadas no mais recente artigo da Wikipedia sobre Lego de 2022?”

“Argumentamos que o desenvolvimento de AGI depende da capacidade de um sistema em demonstrar robustez semelhante à do humano médio em perguntas cotidianas,” escreveram os pesquisadores.

O Potencial Impacto do GAIA no Desenvolvimento de IA

A introdução do GAIA sinaliza uma mudança significativa na pesquisa de IA, com potenciais efeitos abrangentes. Ao enfatizar a competência humana em tarefas diárias em vez de apenas conhecimento especializado, o GAIA expande os limites dos benchmarks de IA atuais.

Se futuros sistemas de IA puderem demonstrar sentido comum, adaptabilidade e raciocínio conforme medido pelo GAIA, isso sugere que poderão alcançar uma AGI prática. Isso poderia resultar em assistentes, serviços e produtos de IA aprimorados.

No entanto, os pesquisadores advertem que os chatbots de hoje ainda enfrentam consideráveis desafios para resolver o GAIA, refletindo limitações existentes em raciocínio, utilização de ferramentas e manejo de cenários diversos do mundo real.

À medida que os pesquisadores enfrentam o desafio do GAIA, suas descobertas iluminarão o progresso rumo à criação de sistemas de IA mais competentes, versáteis e confiáveis. Além disso, benchmarks como o GAIA incentivam o pensamento crítico sobre como a IA pode ser moldada para priorizar valores humanos, como empatia, criatividade e tomada de decisões éticas.

Para aqueles interessados, o leaderboard do benchmark GAIA oferece insights sobre qual LLM de próxima geração está se destacando atualmente nesta avaliação.

Amazon AWS promete superar a Microsoft com soluções inovadoras de Gen AI no Re:Invent.

xAI de Elon Musk Revelará o Chatbot 'Grok' Esta Semana: Tudo que Você Precisa Saber

Most people like

Outerbase

33.7K

Outerbase é uma plataforma inovadora projetada para a exploração e visualização colaborativa de dados, semelhante ao Figma. Esta interface amigável permite que equipes analisem e apresentem dados juntas, aumentando a produtividade e as percepções.

banco de dados AI Developer Tools

roomdesigner.ai

15.5K

Apresentamos o roomdesigner.ai, uma plataforma intuitiva impulsionada por IA, projetada para simplificar o processo de design de ambientes. Transforme seu espaço de forma simples com tecnologia de ponta que permite criar interiores deslumbrantes com facilidade.

Outro AI Interior & Room Design

AI Pet Photos

7.3K

Transforme seu amado animal de estimação em deslumbrantes retratos artísticos personalizados, gerados por IA, feitos a partir de apenas 25 das suas fotos favoritas!

Retratos de pets com IA AI Art Generator

Dream Machine AI

8.6K

Transforme suas imagens e textos em vídeos dinâmicos e cativantes sem esforço com nosso gerador de vídeos por IA. Esta ferramenta inovadora utiliza o poder da inteligência artificial, permitindo que você crie vídeos de qualidade profissional em pouco tempo. Seja para marketing, narração de histórias ou projetos pessoais, eleve seu conteúdo facilmente e engaje seu público como nunca antes.

Gerador de vídeo de IA Image to Video

Find AI tools in YBX