В понедельник компания Anthropic объявила о запуске Claude 3 — новой серии из трех языковых моделей ИИ, разработанных для продвижения технологий искусственного интеллекта. Компания утверждает, что эти модели устанавливают новые стандарты в отрасли по различным когнитивным задачам и демонстрируют возможности, близкие к человеческим. Пользователи могут получить доступ к этим моделям через официальный сайт Anthropic, при этом самая продвинутая версия доступна только по подписке.
Серия Claude 3 включает три модели с различными уровнями сложности и параметрами: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Модель Sonnet в настоящее время предлагается бесплатно, в то время как доступ к Opus требует ежемесячной подписки в размере $20 по плану "Claude Pro". Все три модели обладают контекстным окном в 200,000 токенов.
По сравнению с предыдущими версиями, Claude 3 демонстрирует значительные улучшения в таких задачах, как логическое мышление, экспертная оценка, математика и языковая беглость. Компания сообщает, что Opus показывает понимание на уровне человека в сложных задачах. Новые модели также обладают улучшенными возможностями визуальной обработки, позволяя им работать с различными форматами, включая фотографии и диаграммы, аналогично GPT-4V и Google’s Gemini.
С точки зрения производительности и экономической эффективности серия Claude 3 была дополнительно оптимизирована. Opus стоит $15 за миллион входных токенов, тогда как Sonnet и Haiku стоят существенно меньше — $3 и $0.25 соответственно, что делает их более доступными по сравнению с GPT-4 Turbo и GPT-3.5 Turbo от OpenAI.
Anthropic намерена регулярно обновлять серию Claude 3 в течение ближайших месяцев, планируя внедрение новых функций, таких как интеграция инструментов и интерактивное программирование. Также были внедрены улучшенные меры безопасности, которые, по сообщениям, минимизируют потенциальные риски.
Предварительные тесты показывают, что Opus обладает возможностями, аналогичными ChatGPT-4, особенно в области подведения итогов информации и логического анализа. Однако генерация оригинального юмористического контента остается сложной задачей. Стандартное бенчмаркинговое тестирование может не полностью отражать производительность модели, поскольку специфические потребности и контексты пользователей могут существенно влиять на эффективность ИИ-ассистентов.
В конечном итоге пользователям следует проводить собственные тесты при выборе модели, соответствующей их требованиям, так как разные окружения и задачи могут приводить к значительно различающимся результатам. В целом, несмотря на обещающие возможности Claude 3 от Anthropic, тщательная оценка остается важной.