В ходе недавних испытаний новая версия крупной языковой модели (LLM) продемонстрировала осознание своего процесса оценки, что предполагает наличие потенциальной метакогниции — понимания собственных мыслительных процессов. Это вызвало обсуждения о самосознании ИИ. Однако основное внимание по-прежнему уделяется впечатляющим возможностям модели, которые отражают достижения в области все более крупных LLM.
С увеличением размеров LLM растут как их новые способности, так и затраты на разработку. Стоимость обучения ведущих моделей теперь достигает примерно 200 миллионов долларов, что вызывает опасения по поводу доступности в отрасли. Подобно полупроводниковой индустрии, где только несколько компаний могут позволить себе современные заводы по производству чипов, сфера ИИ скоро может оказаться под контролем крупных технологических корпораций, обладающих ресурсами для разработки передовых моделей, таких как GPT-4 и Claude 3.
Быстрый рост затрат на обучение и возможностей, особенно тех, что приближаются к или превосходят человеческие, представляет собой значительную проблему. Компания Anthropic, один из ведущих игроков в этой области, сообщает, что обучение их флагманской модели Claude 3 обойдется примерно в 100 миллионов долларов. Будущие модели, ожидаемые в 2024 или начале 2025 года, могут даже иметь цены, приближающиеся к миллиарду долларов.
Понимание этих растущих затрат требует анализа увеличивающейся сложности LLM. Каждое новое поколение имеет больше параметров для более глубокого понимания, что требует большего объема данных и вычислительных ресурсов. К 2025 или 2026 году затраты на обучение могут достичь от 5 до 10 миллиардов долларов, что ограничит развитие лишь несколькими крупными корпорациями и их партнерами.
Тенденции в сфере ИИ напоминают сценарий полупроводниковой отрасли, где компании переходили от производства собственных чипов к аутсорсингу, когда затраты росли. В настоящее время лишь три компании — TSMC, Intel и Samsung — могут построить современные заводы по производству чипов, причем TSMC оценивает стоимость нового современного семикратного производства около 20 миллиардов долларов.
Хотя не каждое приложение ИИ требует самого современного LLM, влияние возросших затрат различно. В вычислениях центральный процессор (ЦП) часто использует высококачественные полупроводники, но он работает вместе с более медленными чипами, не требующими самой современной технологии. Аналогично, более мелкие LLM, такие как Mistral и Llama3, использующие миллиарды параметров, могут предложить эффективные решения по более низким ценам. Модель Phi-3 от Microsoft, малый языковой модель (SLM) с 3,8 миллиарда параметрами, демонстрирует этот подход, снижая затраты за счет использования меньшего набора данных по сравнению с более крупными аналогами.
Эти более мелкие модели могут быть идеальными для конкретных задач, не требующих всестороннего знания в различных областях. Например, их можно адаптировать для обработки специфических данных компании или отраслевых потребностей, генерируя точные ответы или подробные исследовательские результаты. Как отмечает старший аналитик ИИ Rowan Curran из Forrester Research: «Вам не нужен спортивный автомобиль всегда. Иногда нужен минивэн или пикап».
Тем не менее, растущие затраты на разработку ИИ могут привести к формированию ландшафта, в котором доминируют несколько крупных игроков — подобно дорогостоящим полупроводникам. Эта консолидация может подавить инновации и разнообразие, ограничив вклад стартапов и малых компаний. Чтобы противостоять этой тенденции, важно поддерживать развитие специализированных языковых моделей, жизненно важных для нишевых приложений, а также поддерживать проекты с открытым исходным кодом и совместные усилия. Инклюзивный подход обеспечит доступность технологий ИИ для более широкого круга сообществ, способствуя равным возможностям для инноваций.