Взаимодействие с сообществом технологий и ИИ на X (ранее Twitter) на этой неделе дало ценное понимание возможностей и недостатков последнего ИИ-чатбота Google, Gemini. Технические профессионалы, инфлюенсеры и авторы делились скриншотами своих взаимодействий с Gemini, подчеркивая примеры странной, неточной и исторически неверной генерации изображений. Критики утверждают, что эти результаты часто сосредоточены на принципах разнообразия и "пробуждения" (wokeness).
Накануне публикации данной статьи Джек Кравчук, старший директор по продуктам Google, ответил на X, отметив, что компания осведомлена о неточностях в исторической генерации изображений Gemini и активно работает над их устранением. Кравчук заявил: "Мы знаем, что Gemini генерирует неточные исторические изображения, и стремимся немедленно это исправить. В рамках наших принципов ИИ мы проектируем генерацию изображений с учетом глобальной аудитории и серьезно относимся к репрезентации и предвзятости. Мы будем продолжать делать это для открытых запросов. Исторические контексты требуют большей тонкости, и мы улучшим наши системы соответственно. Спасибо за ваши отзывы, продолжайте их присылать!"
Gemini был представлен в прошлом году с большим ожиданием, позиционируя себя как ведущая модель ИИ, потенциальный соперник GPT-4 от OpenAI, который в настоящее время доминирует в большинстве третьих оценок. Однако независимые оценки показали, что Gemini функционирует хуже, чем более старая модель OpenAI, GPT-3.5, что побудило Google выпустить обновленные версии, Gemini Advanced и Gemini 1.5, ранее в этом году и отказаться от предыдущего чатбота Bard.
Несмотря на эти обновления, Gemini подвергается критике за нежелание генерировать исторические образы, такие как изображения немецких солдат 1930-х годов, наряду с сомнительными изображениями коренных американцев и людей с более темной кожей в контекстах, не соответствующих исторической достоверности. Например, ИИ, похоже, ошибочно акцентирует внимание на разнообразии при изображении более ранних европейских культур.
Пользователи высказывают опасения относительно восприятия Gemini как следующее принципам "пробуждения", термин, который изменил свое значение от обозначения осведомленности о расовом неравенстве в США до использования в негативном контексте для критики организаций, которые кажутся чрезмерно политкорректными.
Интересно, что некоторые пользователи заметили реальное изменение выходных данных Gemini, что говорит о том, что Google активно улучшает свои возможности генерации изображений. Представитель Google подтвердил приверженность Кравчука к улучшению, признав необходимость более точных изображений, при этом подчеркивая важность разнообразия.
Ян ЛеКун, руководитель ИИ-инициатив Meta, отметил настораживающий случай, когда Gemini отказался генерировать изображение протестов на площади Тяньаньмэнь в 1989 году. ЛеКун утверждал, что такие упущения подчеркивают необходимость открытого исходного кода ИИ, позволяя более широкий контроль над выходными данными.
Критика в адрес изображений Gemini подчеркивает более широкий дебат о том, как ИИ должен взаимодействовать с чувствительными темами, включая разнообразие, исторические несправедливости и угнетение.
Google ранее сталкивался с подобными противоречиями, такими как инцидент в 2015 году с Google Photos и алгоритмической предвзятостью против людей с более темной кожей. Кроме того, увольнение сотрудника Джеймса Дамора в 2017 году за критику практик разнообразия Google еще раз иллюстрирует сложности, с которыми сталкиваются технологические компании в этих обсуждениях.
Другие компании также испытывали трудности с последствием ИИ. Например, ИИ-чатбот Microsoft Tay был закрыт после того, как он стал генерировать вредные и расистские выходные данные.
В попытке избежать прошлых ошибок ограничительный подход Google к Gemini столкнулся с критикой за искажение истории в пользу современных представлений, вызывая сравнения с "1984" Джорджа Оруэлла, где авторитарный режим подавляет правду.
Похожие критики также касались ChatGPT от OpenAI, пользователи пытались "взломать" систему, чтобы получить запрещенную информацию, отражая продолжающееся напряжение между желанием свободного выражения и необходимостью смягчения вредоносного контента.
Разработчики ИИ находятся в сложной ситуации, балансируя между необходимостью допустимого контента и негативной реакцией пользователей, которые считают, что ограничения приводят к историческим неточностям. Это напряжение спровоцировало призывы к открытым моделям, позволяющим индивидуальную автономию, при этом поднимая вопросы о потенциальных рисках, связанных с неограниченным контентом.
Рост генеративного ИИ лишь усиливает дебаты о свободе выражения против необходимости предотвращения социально разрушительных действий. По мере развития технологических достижений разделение по поводу их последствий в обществе, вероятно, продолжит вызывать напряженные обсуждения.