В эксклюзивном интервью Итамар Арель, основатель и генеральный директор стартапа AI Tenyx, рассказал о значительном достижении в области обработки естественного языка. Tenyx улучшила открытый языковой модель Llama-3 от Meta, теперь названную Tenyx-70B, что позволяет ей превосходить GPT-4 от OpenAI в определённых областях — это первый случай, когда открытая модель обходит проприетарную.
«Мы разработали технологию тонкой настройки, которая позволяет улучшить базовую модель за пределами её первоначального обучения», — объяснил Арель. «Мы с нетерпением ждём возможности использования этого подхода для обеспечения непрерывного или последовательного обучения, используя избыточность в больших моделях».
Модель Llama-3 от Tenyx превосходит GPT-4 в математике и программировании, а также взрывает все возможности базовой Llama-3. Это достижение, по словам Ареля, открывает новую эпоху для открытого AI.
Преодоление "катастрофического забывания"
Tenyx решает проблему "катастрофического забывания", при которой модель может утратить ранее приобретённые знания при введении новых данных. Избирательно обновляя небольшую долю параметров модели, Tenyx эффективно обучается на новой информации, не теряя при этом существующих навыков.
«Если изменить всего 5% параметров модели, сохраняя остальное в целости, можно сделать это более агрессивно без искажения других функций», — отметил Арель. Этот метод позволяет Tenyx тонко настроить 70-миллиардную модель Llama-3 всего за 15 часов, используя 100 GPU.
Приверженность открытости AI
Tenyx поддерживает открытый AI, выпуская свою доработанную модель Tenyx-70B под той же лицензией, что и оригинальная Llama-3. «Мы верим в открытые модели», — заявил Арель. «Обмен достижениями с сообществом способствует инновациям и приносит пользу всем».
Применения технологии оптимизации после обучения компании Tenyx разнообразны: от разработки специализированных чат-ботов до обеспечения частых обновлений для развернутых моделей, что позволяет им оставаться актуальными с учётом новых данных.
Изменение ландшафта AI
Прорыв Tenyx имеет значительные последствия, предоставляя бизнесу и исследователям доступ к современным языковым моделям без абсурдных затрат на проприетарные решения. Этот прогресс также может вдохновить дальнейшие инновации в сообществе открытого AI, поскольку другие будут разрабатывать над достижениями Tenyx.
«Что это значит для отрасли и компаний, таких как OpenAI?» — задумался Арель. Учитывая растущую конкуренцию в сфере AI, тонкая настройка открытых моделей Tenyx может пересмотреть динамику в отрасли и подход бизнеса к обработке естественного языка.
Хотя оптимизированная модель Llama-3 от Tenyx сохраняет некоторые ограничения, свойственные базовой модели — включая случайные нелогичные ответы — её улучшения впечатляют. Арель сообщил, что модель демонстрирует почти 96% точности в математике и рассуждениях, в отличие от 85% у базовой модели.
Пока Tenyx открывает новую волну инноваций в области открытого AI, долгосрочное влияние их прорыва на экосистему AI остаётся неопределённым. Однако очевидно, что Tenyx продемонстрировала, что открытые модели могут конкурировать и даже превосходить проприетарные аналоги, прокладывая путь к более доступному и совместному будущему в искусственном интеллекте.