Директор по инженерным вопросам генеративного ИИ в компании Meta, Сергей Эдунов, недавно озвучил неожиданную оценку относительно энергии, необходимой для удовлетворения растущего спроса на AI-приложения в следующем году: всего две новые атомные электростанции.
Во время панели, которую я модераторил на Digital Workers Forum в Силиконовой долине, Эдунов, который курирует обучение открытой модели Meta Llama 2, отметил, что такое количество энергии должно вполне удовлетворить потребности человечества в AI на один год. Отвечая на опасения по поводу глобальных возможностей поддержки увеличивающихся энергетических требований генеративного ИИ, он заявил: «Мы определённо можем решить эту проблему».
Эдунов признал, что его оценка основана на предварительных расчетах, но считает её разумной для необходимой мощности «инференса». Инференс — это процесс, когда AI отвечает на запросы или дает рекомендации после обширного обучения модели.
Потребности в энергии для инференса под контролем
Эдунов уточнил, что требования к энергии для инференса отличаются от требований для обучения. Он объяснил, что инференс займет большую часть вычислительных мощностей, когда организации начнут внедрять AI-приложения. Его расчет для инференса включал ожидаемый выпуск от одного до двух миллионов GPU H100 от Nvidia в следующем году. При полной загрузке это составит примерно 100,000 токенов на человека на Земле в день — значительное количество.
Токены — это основные единицы текста, которые LLM используют для обработки и генерации языка. Энергия, необходимая для этих вычислений, значительна; каждый GPU H100 потребляет около 700 ватт. Учитывая дополнительную энергию для дата-центров и охлаждения, Эдунов округлил эту цифру до 1 киловатта на GPU. В конечном итоге он пришел к выводу, что для эффективного питания всех GPU потребуется всего две атомные электростанции. «На масштабе человечества это не так много», — заметил Эдунов, предложив, что общество вполне может поддерживать 100,000 токенов в день на человека.
Обучение генеративного ИИ: проблема данных
В отличие от этого, Эдунов подчеркнул, что обучение LLM представляет собой другую задачу: получение достаточного объема данных. Он оценил, что хотя весь доступный интернет содержит примерно 100 триллионов токенов, это число значительно уменьшается после очистки и дедупликации, возможно, до 10-20 триллионов токенов. Примечательно, что если акцентировать внимание на высококачественных данных, доступных токенов будет еще меньше. Он выразил опасения, что модели следующего поколения могут потребовать на порядок больше данных, чем предыдущие версии. Например, если GPT-4 обучался на 20 триллионах токенов, следующая модель может потребовать около 200 триллионов токенов, и такие данные могут быть недоступны.
Эдунов подчеркнул, что исследователи изучают методы повышения эффективности, чтобы улучшить обучение моделей на меньших наборах данных, а также рассматривают альтернативные источники данных, такие как мультимодальные вводные (включая видео).
Мнения панели о ресурсах данных и технологиях
Эдунов участвовал в панели под названием «Генерация токенов: электрик эпохи GenAI» вместе с Ником Спириным, директором генеративного ИИ в Nvidia, и Кевином Цаем, руководителем архитектуры решений по генеративному ИИ в Google. Спирин поддержал Эдунова, указав на наличие дополнительных резервуаров данных за пределами публичного интернета, даже если доступ к ним ограничен.
Спирин выступил с предложением о необходимости сильных открытых базовых моделей, чтобы уменьшить вычислительные избыточности в независимых усилиях. Такой совместный подход мог бы воспользоваться предобученными моделями, позволяя организациям сосредоточиться на разработке интеллектуальных прикладных решений.
Цай отметил, что несколько новых технологий, таких как Retrieval Augmented Generation (RAG), могут облегчить нагрузку обучения, при этом повышая производительность модели. Совместные инициативы могут привести к созданию моделей, универсальных для различных приложений, что, по его мнению, имеет важное значение для устойчивости.
Прогнозы по развитию LLM
В завершение панели я попросил участников поделиться своими прогнозами по улучшению LLM в ближайшие два-три года. Они единодушно отметили, что хотя точная траектория улучшений LLM остается неопределенной, его значительная ценность уже очевидна, и ожидается широкое внедрение в бизнес в течение двух лет.
Эдунов предсказал, что в течение трех-четырех лет мы получим ясность относительно осуществимости искусственного общего интеллекта (AGI). Ссылаясь на прошлые технологические тренды, Спирин предположил, что компании вначале могут быть осторожны в принятии технологий AI, но значительная ценность, вероятно, проявится в течение двух лет.
Цай выделил проблемы в цепочке поставок, связанные с зависимостью Nvidia от высокоскоростной памяти для GPU, как критическое узкое место в улучшении моделей. Однако он выразил оптимизм по поводу инноваций, таких как проект Blib-2 от Salesforce, который стремится создать более мелкие и эффективные модели, потенциально обходя текущие ограничения.