Nous Research, частная прикладная исследовательская группа, известная своими достижениями в области крупных языковых моделей (LLM), представила новую модель визуального языка под названием Nous Hermes 2 Vision, доступную на платформе Hugging Face. Эта модель с открытым исходным кодом основывается на предыдущей версии OpenHermes-2.5-Mistral-7B и расширяет свои возможности, позволяя пользователям вводить изображения и извлекать текстовую информацию из визуального контента. Однако вскоре после запуска пользователи сообщили о проблемах с галлюцинациями, что побудило компанию переименовать проект в Hermes 2 Vision Alpha. Ожидается, что в ближайшее время выйдет более стабильная версия с меньшим числом ошибок.
Nous Hermes 2 Vision Alpha
Названная в честь греческого посланника богов Гермеса, эта модель визуального языка разработана для точного анализа сложных человеческих дискурсов. Она объединяет визуальные данные, предоставленные пользователями, с усвоенными знаниями, что позволяет ей выдавать детализированные и естественные ответные реакции. Например, соучредитель Nous, известный как Teknium в X, поделился скриншотом, демонстрирующим способность модели анализировать изображение бургера и оценивать его влияние на здоровье.
Уникальные особенности Nous Hermes 2 Vision
Хотя ChatGPT, основанный на GPT-4V, также поддерживает ввод изображений, Nous Hermes 2 Vision выделяется двумя основными преимуществами:
1. Легкая архитектура: Вместо традиционных 3B визуальных кодеров, Nous Hermes 2 Vision использует SigLIP-400M. Это не только упрощает архитектуру модели, делая ее легче, но и улучшает производительность в задачах взаимодействия визуального языка.
2. Возможность вызова функций: Модель была обучена на специализированном наборе данных с функцией вызова. Пользователи могут использовать функцию...