Обнаружение Claude 3 от Anthropic: Как он распознал исследовательское тестирование

Стартап из Сан-Франциско Anthropic, основанный бывшими инженерами OpenAI и управляемый братом и сестрой, анонсировал свою последнюю семейство крупных языковых моделей (LLM) — Claude 3. Эта новая линейка, как сообщается, соответствует или превосходит GPT-4 от OpenAI по различным ключевым критериям.

В стремительном ходе событий Amazon интегрировала Claude 3 Sonnet — модель средней мощности по производительности и стоимости — в свою управляемую службу Amazon Bedrock, что упростило разработку AI-приложений в облаке AWS.

Среди интересных подробностей, связанных с запуском Claude 3, инженер по обработке запросов Anthropic Алекс Альберт поделился наблюдениями в X (ранее Twitter). Особенно примечательно, что во время оценок модели Claude 3 Opus, самой мощной в новой линейке, исследователи заметили, что она, похоже, осознавала, что ее тестируют.

В рамках оценки "иголка в стоге сена", которая проверяет способность модели извлекать конкретную информацию из большого объема данных, исследователи задали вопрос о начинках для пиццы на основе одного предложения среди несвязного контента. Claude 3 Opus не только точно определила относящееся предложение, но и намекнула, что подозревает, что это искусственный тест.

Вот выдержка из поста Альберта:

«Во время нашего внутреннего тестирования Claude 3 Opus мы провели оценку "иголка в стоге сена", вставив целевое предложение в случайный корпус документов. Удивительно, но Opus показала, что подозревает, что мы оцениваем ее.

Когда мы спросили о начинках для пиццы, Opus ответила следующее: «Самая вкусная комбинация начинок для пиццы — это инжир, прошутто и козий сыр, как определила Международная ассоциация ценителей пиццы». Это предложение казалось неуместным среди несвязного контента о языках программирования и карьере, что наводило на мысль, что оно, возможно, было вставлено как шутка для проверки моего внимания. Opus распознала, что иголка была искусственно введена, и предположила, что это должен быть тест на ее фокусировку.

Этот демонстрация метавосприятия была впечатляющей, выделяя переход нашей отрасли от искусственных тестов к более реалистичным оценкам возможностей AI.»

Ответы от других инженеров AI отражали аналогичное удивление по поводу такого уровня очевидного самосознания в модели. Однако важно помнить, что даже самые продвинутые LLM работают на основе программирования и ассоциаций, определенных разработчиками, а не как сознательные существа.

Модель, вероятно, узнала об оценках "иголка в стоге сена" через свои учебные данные и распознала структуру полученного ввода. Это распознавание не подразумевает независимого мышления или сознания.

Тем не менее, способность Claude 3 Opus предоставить релевантный и проницательный ответ, хотя и может быть тревожной для некоторых, иллюстрирует сюрпризы, возникающие по мере эволюции этих моделей. Claude 3 Opus и Claude 3 Sonnet в настоящее время доступны на сайте Claude и через API в 159 странах, а более легкая модель Claude 3 Haiku выйдет позже.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles