На этой неделе ChatGPT отмечает свой первый юбилей, а китайский стартап DeepSeek AI выходит на конкурентный рынок разговорного ИИ с новым продуктом - DeepSeek Chat. В настоящее время DeepSeek Chat находится на стадии альфа-тестирования и использует модели DeepSeek LLM с 7 и 67 миллиардами параметров, обученные на наборе данных из 2 триллионов токенов на английском и китайском языках. Бенчмарки показывают, что эти модели превосходят в различных оценках, включая программирование и математику, часто соответствуя или даже превосходя Meta’s Llama 2-70B.
Появление DeepSeek Chat дополняет растущее количество китайских игроков на рынке ИИ после значительных релизов от Qwen, 01.AI и Baidu. DeepSeek открыла как базовые, так и инструкции настроенные версии своих моделей с целью способствовать дальнейшим исследованиям в академической и коммерческой сферах.
Основанная недавно с миссией раскрыть AGI, DeepSeek также допускает коммерческое использование при определённых условиях.
Ключевые особенности DeepSeek Chat и LLMs
DeepSeek Chat доступен через веб-интерфейс, аналогичный ChatGPT, позволяя пользователям войти и взаимодействовать с моделью для различных задач. В настоящее время доступна только версия с 67 миллиардами параметров.
Обе модели DeepSeek построены на авто-регрессионной архитектуре трансформера, аналогичной Llama, но различаются методами вывода. Меньшая модель (7B) использует многоголовое внимание (MHA), в то время как большая модель (67B) применяет групповое внимание к запросам (GQA).
Согласно странице моделей на GitHub, модель 7B была обучена с размером батча 2304 и скоростью обучения 4.2e-4, тогда как модель 67B использовала размер батча 4608 и скорость обучения 3.2e-4. Протокол обучения включает многоступенчатый график скорости обучения, начиная с 2000 шагов разогрева перед корректировкой на основе количества токенов.
В тестах DeepSeek LLM 67B Base продемонстрировала впечатляющие общие способности, превзойдя Llama2 70B Base в рассуждениях, программировании, математике и понимании китайского языка. Единственной областью, где Llama проявила немного лучшие результаты, была викторина с 5 подсказками (79.5 против 78.9).
Финально настроенная версия чата также достигла выдающихся результатов в новых тестах. Например, она набрала 73.78 балла в задаче кодирования HumanEval pass@1 и 84.1 в математике GSM8K zero-shot, что ставит её сразу за GPT-4 и Claude 2 от Anthropic.
Тем не менее, несмотря на эти сильные показатели, есть предположения, что модель DeepSeek может иметь механизмы цензуры. Один из пользователей на X заметил, что ответы были редактированы, когда речь шла о Китае, заменяясь сообщением о том, что контент был "отозван" по соображениям безопасности. Неясно, имеет ли базовая модель аналогичные фильтры.
Разнообразие предложений LLM
Выпуск DeepSeek LLM обозначает значительный шаг вперёд для Китая в области ИИ, расширяя ассортимент моделей для удовлетворения различных потребностей пользователей. Другие недавние предложения китайского ИИ включают Ernie 4.0 от Baidu, Yi 34B от 01.AI и модели Qwen с диапазоном от 1.8B до 72B.
Примечательно, что некоторые меньшие модели демонстрируют результаты, сопоставимые с большими, например, Yi 34B, которая показала способности, соответствующие Llama-2-70B и Falcon-180B. Эта тенденция указывает на то, что компании могут добиться эффективности, выбрав меньшие модели без компромиссов в эффективности, сохраняя вычислительные ресурсы при решении различных задач.
На прошлой неделе Microsoft вошла в это конкурентное пространство с моделями Orca 2, которые продемонстрировали превосходство в производительности по сравнению с моделями, в пять-десять раз превышающими их размер, включая Llama-2Chat-70B.