В прошлый четверг OpenAI представила демонстрацию своей новой модели текст-видео, Sora, способной генерировать видео длительностью до одной минуты с впечатляющим качеством изображения и в соответствии с запросами пользователей.
Вы могли видеть увлекательные видеоклипы, которые OpenAI продемонстрировала, от щенков золотистого ретривера, выбрасывающихся из снега, до пар, гуляющих по шумным улицам Токио. Ваши эмоции могли варьироваться от восхищения и восторга до скептицизма или беспокойства, что отражает разнообразные чувства, окружающие генеративный ИИ сегодня.
Лично меня поразили удивление и любопытство. Настоящий вопрос заключается в том, что означает выпуск Sora?
На мой взгляд, Sora иллюстрирует загадку OpenAI, особенно заметную всего через три месяца после кратковременного увольнения и возвращения генерального директора Сэма Альтмана. Эта таинственная аура создает ожидание вокруг каждого объявления.
Стоит отметить, что OpenAI работает по закрытой модели, целенаправленно удерживая свои процессы в секрете. Миллионы людей уже анализируют каждую деталь, связанную с Sora, задаваясь вопросами о ее работе, данных для обучения, сроках выпуска, возможных приложениях и более широких последствиях для индустрии, рабочей силы, общества и окружающей среды. Все эти спекуляции возникают из демонстрации, которая не будет доступна для коммерциализации в ближайшее время, что усиливает вокруг нее ажиотаж.
Одновременно Sora отражает прозрачность OpenAI в отношении своей миссии по разработке искусственного общего интеллекта (AGI), который «приносит пользу всему человечеству». Организация заявила, что делится прогрессом в исследовании Sora на ранней стадии, чтобы получить обратную связь от внешних экспертов и продемонстрировать предстоящие возможности ИИ. Заголовок технического отчета Sora, «Модели генерации видео как мировые симуляторы», указывает на то, что OpenAI не просто выпускает инструмент текст-видео для креативщиков, а продвигает исследования в ИИ к AGI, хотя его точное определение все еще остается неопределенным.
Этот интригующий парадокс — сочетание загадочности текущих усилий OpenAI и ясности относительно долгосрочной визии — часто остается незамеченным по мере роста общего осознания и коммерческого принятия его технологий.
Исследователи, стоящие за Sora, прекрасно осознают ее текущее влияние и осторожны в отношении ее применения в креативных начинаниях. Адитья Рамеш, ученый OpenAI, соразработавший DALL-E и входящий в команду Sora, выразил опасения по поводу возможного злоупотребления высокореалистичными видео. «Мы осторожно подходим к развертыванию и уверены, что учли все аспекты, прежде чем представлять это широкой публике», — пояснил он.
Тем не менее, Рамеш считает Sora важным шагом вперед. «Мы рады развивать ИИ, чтобы он мог рассуждать о мире подобно людям», — отметил он в X.
Мысли Рамеша о видео восходят к январю 2023 года во время ретроспективного интервью о разработке DALL-E. Он указал, что уже тогда думал об импликациях видео-технологий. Когда я спросил его о его интересах в работе над DALL-E, он подчеркнул уникальные аспекты интеллекта, связанные с визуальным восприятием. «С помощью видео вы можете представить модель, генерирующую последовательности, которые понимают причинно-следственные связи со временем», — отметил он.
В нашем разговоре Рамеш уловил двойственность OpenAI: с одной стороны, он наслаждался возможностью показать больше людям возможности DALL-E, стремясь к более широкой доступности этой технологии. С другой стороны, его основная мотивация как исследователя заключалась в том, чтобы расширить границы того, на что способен ИИ, опираясь на успех технологий, таких как GPT-2, и исследуя генерацию текстов в изображения, чтобы проверить, сможет ли ИИ воспроизвести человеческую экстраполяцию.
В конечном итоге Sora — это не только видео.
В ближайшей перспективе она может служить креативным инструментом, с множеством вызовов, которые нужно решить. Однако важно признать, что OpenAI рассматривает Sora как часть более широкого видения. Независимо от того, рассматриваете ли вы Sora как «физический движок на основе данных», моделирующий разнообразные миры, как предположил Джим Фан из Nvidia, или критикуете ее как ошибочное начинание, напоминающее устаревшие идеи типа «анализа по синтезу», сосредоточение исключительно на Sora как на замечательном видео-приложении обесцвечивает двойные цели OpenAI.
OpenAI действительно реализует стратегию генеративного ИИ через потребительские продукты, корпоративные инициативы и взаимодействие с сообществом разработчиков. Однако все это служит ступенькой к достижению ее видения AGI.
Так что, если вас интересует цель Sora, помните об этой двойственности: в то время как OpenAI в настоящее время активно работает в видео-пространстве, ее конечная цель — гораздо более глобальная.