Недавно OpenAI представила свою инновационную модель генерации видео — Sora, которая достигла значительных успехов в технологии текст-в-видио. Однако тестирование Bloomberg выявило некоторые заметные ограничения Sora. Например, в сцене, где попугай пролетает мимо обезьяны, крылья попугая показали искажения, а обезьяна странным образом обладала хвостом попугая.
Эти моменты подчеркивают трудности Sora в понимании физических свойств объектов. Билл Пиблз, ученый OpenAI, признал эти проблемы, отметив: "В клипах действительно наблюдаются странные движения."
Sora использует технологию диффузионного трансформера для разбивки видео-контента на несколько меньших сегментов, применяя методы денойзинга для предсказания оригинальных четких изображений. Хотя этот подход улучшает качество генерации видео, Sora все еще сталкивается с множеством препятствий, включая точность физического взаимодействия, согласованность изменения состояния объектов, связанность длинных образцов, спонтанное появление объектов, корректную работу с руками и частями тела, требования к вычислительным ресурсам, способности к обобщению модели и возможность редактирования и расширения видео. В сложных сценах Sora может демонстрировать нереалистичное поведение, такое как баскетбольный мяч, проходящий через сетку корзины или собаки, случайно проходящие друг через друга во время прогулки.
Несмотря на впечатляющую работу Sora в определенных сценариях, OpenAI осознает необходимость преодоления ряда технических вызовов для модели. С развитием технологий есть основания ожидать светлого будущего для Sora.