Progresso Rumo à AGI: Perspectivas da DeepMind sobre Nosso Status Atual

A busca pela inteligência geral artificial (AGI)—sistemas de IA com capacidades humanas em diversas tarefas—acende um intenso debate entre cientistas. As opiniões são muito variadas: alguns especialistas afirmam que a AGI está longe de ser alcançada, enquanto outros preveem sua emergência em uma década. Notavelmente, há quem acredite que "faíscas de AGI" já estão evidentes nos atuais modelos de linguagem de grande escala (LLMs).

Para esclarecer esse debate, uma equipe da Google DeepMind, liderada pelo Cientista Chefe em AGI, Shane Legg, apresentou uma nova estrutura para categorizar as capacidades e comportamentos dos sistemas de AGI e seus precursores.

Definindo a AGI

Um grande desafio no desenvolvimento da AGI é estabelecer uma definição clara. Os pesquisadores da DeepMind avaliaram nove definições, incluindo o Teste de Turing, o Coffee Test, avaliações de consciência, métricas econômicas e benchmarks relacionados a tarefas. Eles destacam as limitações de cada definição em capturar plenamente a essência da AGI.

Por exemplo, embora os LLMs consigam passar no Teste de Turing, gerar texto convincente não os qualifica como AGI, uma realidade evidenciada pelas limitações atuais desses modelos. Além disso, atribuir consciência a máquinas ainda é uma busca ambígua. Não passar em testes específicos—como preparar café em uma cozinha desconhecida—indica que o sistema não é AGI, mas passar em tarefas não confirma essa condição.

Para criar uma compreensão mais profunda da AGI, os pesquisadores propõem seis critérios para avaliar a inteligência artificial:

1. Foco nas Capacidades: As medidas de AGI devem priorizar capacidades em vez de qualidades complicadas, como compreensão humana ou consciência.

2. Generalidade e Performance: As avaliações devem considerar tanto a gama de tarefas que uma IA pode realizar quanto seu nível de desempenho.

3. Requisitos Cognitivos: A AGI deve envolver tarefas cognitivas e metacognitivas, enquanto a corporeidade física não é essencial.

4. Potencial de Tarefa: A capacidade de realizar tarefas em nível de AGI é suficiente, mesmo que o sistema não esteja atualmente em uso. Requerer a implantação traz desafios não técnicos, incluindo implicações éticas e legais.

5. Validade Ecológica: As métricas de AGI devem enfatizar tarefas do mundo real que têm valor para a sociedade.

6. Modelo de Caminho: A AGI não é um ponto final singular; representa um continuum com vários níveis de inteligência.

O Espectro da Inteligência

A DeepMind criou uma matriz que avalia "performance" e "generalidade" em cinco níveis, desde nenhuma IA até AGI super-humana. A performance reflete como as capacidades de uma IA se comparam às habilidades humanas, enquanto a generalidade mede a amplitude de tarefas que uma IA pode manejar de forma eficaz.

Essa matriz diferencia entre IA estreita e geral. Por exemplo, sistemas de IA estreita super-humanos, como AlphaZero e AlphaFold, se destacam em tarefas específicas. Modelos de linguagem avançados, como ChatGPT, Bard e Llama 2, são classificados como "Competentes" (Nível 2) em tarefas como redação de ensaios, mas ainda são considerados "Emergentes" (Nível 1) em áreas como matemática e raciocínio.

Os pesquisadores afirmam que os atuais modelos de linguagem avançados seriam classificados como AGI Geral de Nível 1 ('AGI Emergente') até que demonstrem um desempenho superior em uma gama mais ampla de tarefas. Eles também alertam que classificações teóricas podem não corresponder ao desempenho no mundo real. Por exemplo, sistemas de texto para imagem podem criar imagens de alta qualidade em comparação a artistas humanos, mas ainda assim podem não atingir o status de "virtuose" devido a imprecisões ocasionais.

A DeepMind defende um benchmark de AGI que abranja uma variedade de tarefas cognitivas e metacognitivas, incluindo habilidades linguísticas, habilidades de raciocínio e criatividade. Eles reconhecem o desafio de definir cada tarefa concebível por uma inteligência suficientemente geral, propondo que o benchmark de AGI seja uma estrutura dinâmica, adaptando-se a novas tarefas à medida que surgem.

Autonomia e Avaliação de Riscos

A DeepMind introduz uma matriz para avaliar a autonomia e os riscos associados em sistemas de IA. Isso varia de Nível 0, onde os humanos realizam todas as tarefas, a Nível 5, indicando plena autonomia, englobando níveis em que humanos e IA compartilham responsabilidades.

Os riscos apresentados pelos sistemas de IA evoluem com o aumento da autonomia. Em níveis mais baixos, os riscos podem incluir a desqualificação dos trabalhadores e interrupções em indústrias. Níveis mais altos de autonomia potencialmente elevam preocupações sérias, como manipulação direcionada de indivíduos por meio de conteúdos personalizados e desalinhamento ético em agentes totalmente autônomos.

Embora a estrutura da DeepMind possa ter suas limitações e críticos, ela serve como um guia significativo para medir o progresso em direção ao desenvolvimento de sistemas de IA que podem, em última análise, superar as capacidades humanas.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles