Недавно команда Tongyi Qianwen компании Alibaba объявила о выходе в открытый доступ своей новой серии аудиоязыковых моделей Qwen2-Audio, в которую входят Qwen2-Audio-7B и Qwen2-Audio-7B-Instruct. Этот запуск представляет собой значительный прорыв в области взаимодействия с помощью ИИ, предоставляя пользователям новый и увлекательный опыт общения.
Qwen2-Audio обладает передовыми возможностями обработки звука, что позволяет ему принимать и интерпретировать различные аудиосигналы, включая человеческую речь, естественные звуки и музыку. Модель функционирует в двух основных режимах: голосового чата и аудиоанализа. В режиме голосового чата пользователи могут наслаждаться естественными беседами без необходимости текстового ввода. Напротив, режим аудиоанализа позволяет углубленно исследовать загруженные аудиофайлы с помощью аудио- и текстовых команд, предоставляя подробные инсайты.
Модель Qwen2-Audio превосходит предыдущие лучшие модели в нескольких авторитетных бенчмарках благодаря своей продвинутой архитектуре и оптимизационным методам. Интегрировав аудиокодер с крупной языковой моделью, Qwen2-Audio использует кодер Whisper-large-v3 от OpenAI, обеспечивая эффективную и точную обработку звука, в то время как базовый компонент Qwen-7B улучшает возможности понимания и генерации языка. Более того, модель применяет методы контролируемой тонкой настройки (SFT) и прямой оптимизации предпочтений (DPO) для повышения точности и универсальности.
Функционально Qwen2-Audio не только обеспечивает интеллектуальное распознавание и бесшовное переключение между голосовым чатом и аудиоанализом, но и включает возможности распознавания эмоций, позволяя точно интерпретировать эмоциональные нюансы в речи и повышать эмоциональный комфорт взаимодействия. Модель поддерживает несколько языков и диалектов, включая мандаринский, кантонский, французский, английский и японский, что значительно расширяет её потенциал применения.
Открытый релиз голосовой модели взаимодействия Qwen2-Audio 7B подчеркивает технологическую силу и инновационные возможности Alibaba в сфере ИИ, устанавливая новые стандарты для отрасли. Технология продолжает развиваться, а с расширением сценариев применения Qwen2-Audio готова обеспечить пользователям ещё больше удобства и впечатлений.