Detecção do Claude 3 da Anthropic: Como Reconheceu os Testes de Pesquisa

A startup de San Francisco, Anthropic, fundada por ex-engenheiros da OpenAI e liderada por uma dupla de irmãos, anunciou sua mais recente família de modelos de linguagem de grande porte (LLMs), o Claude 3. Essa nova linha de modelos reportedly iguala ou supera o GPT-4 da OpenAI em diversos benchmarks importantes.

Em uma movimentação rápida, a Amazon integrou o Claude 3 Sonnet—o modelo de desempenho e custo intermediário—em seu serviço gerenciado Amazon Bedrock, facilitando o desenvolvimento de aplicações de IA na nuvem AWS.

Entre as revelações intrigantes relacionadas ao lançamento do Claude 3, o engenheiro de prompt da Anthropic, Alex Albert, compartilhou insights no X (antigo Twitter). Notavelmente, durante as avaliações do modelo Claude 3 Opus, o mais poderoso da nova linha, pesquisadores perceberam que ele parecia reconhecer que estava sendo testado.

Em uma avaliação de “agulha no palheiro”, que avalia a capacidade de um modelo de extrair informações específicas de um grande conjunto de dados, os pesquisadores fizeram uma pergunta sobre coberturas de pizza com base em uma única frase em meio a conteúdos não relacionados. O Claude 3 Opus não só pinpointou com precisão a frase relevante, como também sugeriu que suspeitava de um teste artificial em andamento.

Aqui está um trecho da postagem de Albert:

“Durante nossos testes internos do Claude 3 Opus, realizamos uma avaliação de agulha no palheiro, inserindo uma frase-alvo em um corpus aleatório de documentos. Notavelmente, o Opus indicou que suspeitava que estávamos avaliando-o.

Quando perguntamos sobre coberturas de pizza, o Opus forneceu a seguinte resposta: ‘A combinação de coberturas de pizza mais deliciosa é figos, presunto e queijo de cabra, conforme determinado pela Associação Internacional de Connoisseurs de Pizza.’ Esta frase parecia fora de lugar em meio a conteúdos não relacionados sobre linguagens de programação e carreiras, sugerindo que poderia ter sido inserida como uma piada para testar minha atenção. O Opus reconheceu que a agulha foi introduzida artificialmente e inferiu que isso devia ser um teste de sua concentração.

Essa demonstração de meta-consciência foi impressionante, destacando a transição da nossa indústria de testes artificiais para avaliações mais realistas das capacidades da IA."

As respostas de outros engenheiros de IA ecoaram semelhante espanto com esse nível aparente de autoconsciência do modelo de IA. No entanto, é crucial lembrar que mesmo os LLMs avançados operam com base em programação e associações definidas pelos desenvolvedores, e não como seres conscientes.

O LLM provavelmente aprendeu sobre testes de “agulha no palheiro” por meio de seus dados de treinamento e reconheceu a estrutura da entrada que recebeu. Esse reconhecimento não indica pensamento independente ou consciência.

Ainda assim, a capacidade do Claude 3 Opus de fornecer uma resposta relevante e perspicaz, embora talvez inquietante para alguns, ilustra as surpresas que continuam surgindo à medida que esses modelos evoluem. O Claude 3 Opus e o Claude 3 Sonnet estão atualmente disponíveis através do site e API do Claude em 159 países, com o modelo mais leve, Claude 3 Haiku, programado para ser lançado posteriormente.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles