Достижение искусственного общего интеллекта (AGI) — систем ИИ с человеческими способностями в различных задачах — вызывает бурные обсуждения среди ученых. Мнения экспертов разнятся: одни считают, что AGI еще далеко, в то время как другие предсказывают его появление в течение следующего десятилетия. Замечено, что некоторые уже видят "искры AGI" в современных больших языковых моделях (LLM).
Чтобы внести ясность в эти дебаты, команда Google DeepMind во главе с главным ученым по AGI Шейном Лэггом представила новую структуру для классификации способностей и поведения AGI и его предшественников.
Определение AGI
Одной из основных проблем в разработке AGI является четкое его определение. Исследователи DeepMind оценили девять определений, включая тест Тьюринга, тест на кофе, оценки сознания, экономические метрики и критерии, связанные с задачами. Они подчеркивают ограничения каждого определения в полном захвате сути AGI.
Например, хотя LLM могут проходить тест Тьюринга, просто создание убедительного текста не квалифицирует их как AGI, что подчеркивают существующие ограничения этих моделей. Кроме того, приписывание сознания машинам остается неопределенным. Невыполнение определенных тестов, например, приготовление кофе на незнакомой кухне, указывает на отсутствие AGI, однако выполнение задач само по себе не подтверждает его наличие.
Для более глубокого понимания AGI исследователи предлагают шесть критериев для оценки искусственного интеллекта:
1. Ориентация на способности: оценки AGI должны акцентироваться на способностях, а не на неуловимых качествах, таких как понимание на уровне человека или сознание.
2. Общность и производительность: оценки должны учитывать как диапазон задач, которые может выполнять ИИ, так и уровень его производительности.
3. Когнитивные требования: AGI включает когнитивные и метакогнитивные задачи, тогда как физическое воплощение не является обязательным.
4. Потенциал задач: способность выполнять задачи на уровне AGI достаточна, даже если система неразворачиваемая. Требование развертывания вносит нетехнические проблемы, включая этические и юридические последствия.
5. Экологическая валидность: метрики AGI должны подчеркивать реальные задачи, имеющие ценность для общества.
6. Модель пути: AGI не является единой конечной целью, а представляет собой непрерывный процесс с различными уровнями интеллекта.
Спектр интеллекта
DeepMind создала матрицу, оценивающую "производительность" и "общность" на пяти уровнях, от отсутствия ИИ до сверхчеловеческого AGI. Производительность отражает, как способности ИИ сопоставимы с человеческими навыками, тогда как общность измеряет диапазон задач, с которыми ИИ может эффективно справляться.
Эта матрица различает узкий и общий ИИ. Например, сверхчеловеческие узкие системы ИИ, такие как AlphaZero и AlphaFold, превосходят в конкретных задачах. Прогрессивные языковые модели, такие как ChatGPT, Bard и Llama 2, принадлежит к категории "Компетентные" (Уровень 2) в таких задачах, как написание эссе, но они все еще в статусе "Восходящие" (Уровень 1) в таких областях, как математика и мышление.
Исследователи утверждают, что современные продвинутые языковые модели будут классифицироваться как Уровень 1 Общий ИИ ('Восходящий AGI'), пока не продемонстрируют высокую производительность в более широком диапазоне задач.
Они также предупреждают, что теоретические классификации могут не совпадать с реальной производительностью. Например, системы текст-в-изображение могут создавать качественные изображения по сравнению с человеческими художниками, но могут не достичь "виртуозного" статуса из-за редких неточностей.
DeepMind выступает за создание эталона AGI, охватывающего ряд когнитивных и метакогнитивных задач, включая языковые навыки, способности к рассуждению и креативность. Они осознают сложность определения каждой задачи, мыслимую достаточно общим интеллектом, предлагая динамическую рамку оценки AGI, адаптирующуюся под новые задачи.
Автономия и оценка рисков
DeepMind презентует матрицу для оценки автономии и связанных с ней рисков в системах ИИ. Она охватывает диапазон от Уровня 0, когда все задачи выполняются людьми, до Уровня 5, указывая на полную автономию с уровнями, где люди и ИИ делят ответственность.
Риски, возникающие от систем ИИ, растут с увеличением уровня автономии. На низких уровнях риски могут включать снижение квалификации работников и разрушения в отраслях. Высшие уровни автономии потенциально вызывают серьезные опасения, такие как целенаправленное манипулирование индивидами через персонализированный контент и этическое несовпадение в полностью автономных агентах.
Хотя структура DeepMind может иметь свои ограничения и критиков, она служит значительным ориентиром для оценки прогресса в разработке систем ИИ, которые в конечном итоге могут превзойти человеческие способности.