Представляем DeepSeek Chat: новый конкурент ChatGPT из Китая с впечатляющей моделью на 67 миллиардов параметров.

На этой неделе ChatGPT отмечает свой первый юбилей, а китайский стартап DeepSeek AI выходит на конкурентный рынок разговорного ИИ с новым продуктом - DeepSeek Chat. В настоящее время DeepSeek Chat находится на стадии альфа-тестирования и использует модели DeepSeek LLM с 7 и 67 миллиардами параметров, обученные на наборе данных из 2 триллионов токенов на английском и китайском языках. Бенчмарки показывают, что эти модели превосходят в различных оценках, включая программирование и математику, часто соответствуя или даже превосходя Meta’s Llama 2-70B.

Появление DeepSeek Chat дополняет растущее количество китайских игроков на рынке ИИ после значительных релизов от Qwen, 01.AI и Baidu. DeepSeek открыла как базовые, так и инструкции настроенные версии своих моделей с целью способствовать дальнейшим исследованиям в академической и коммерческой сферах.

Основанная недавно с миссией раскрыть AGI, DeepSeek также допускает коммерческое использование при определённых условиях.

Ключевые особенности DeepSeek Chat и LLMs

DeepSeek Chat доступен через веб-интерфейс, аналогичный ChatGPT, позволяя пользователям войти и взаимодействовать с моделью для различных задач. В настоящее время доступна только версия с 67 миллиардами параметров.

Обе модели DeepSeek построены на авто-регрессионной архитектуре трансформера, аналогичной Llama, но различаются методами вывода. Меньшая модель (7B) использует многоголовое внимание (MHA), в то время как большая модель (67B) применяет групповое внимание к запросам (GQA).

Согласно странице моделей на GitHub, модель 7B была обучена с размером батча 2304 и скоростью обучения 4.2e-4, тогда как модель 67B использовала размер батча 4608 и скорость обучения 3.2e-4. Протокол обучения включает многоступенчатый график скорости обучения, начиная с 2000 шагов разогрева перед корректировкой на основе количества токенов.

В тестах DeepSeek LLM 67B Base продемонстрировала впечатляющие общие способности, превзойдя Llama2 70B Base в рассуждениях, программировании, математике и понимании китайского языка. Единственной областью, где Llama проявила немного лучшие результаты, была викторина с 5 подсказками (79.5 против 78.9).

Финально настроенная версия чата также достигла выдающихся результатов в новых тестах. Например, она набрала 73.78 балла в задаче кодирования HumanEval pass@1 и 84.1 в математике GSM8K zero-shot, что ставит её сразу за GPT-4 и Claude 2 от Anthropic.

Тем не менее, несмотря на эти сильные показатели, есть предположения, что модель DeepSeek может иметь механизмы цензуры. Один из пользователей на X заметил, что ответы были редактированы, когда речь шла о Китае, заменяясь сообщением о том, что контент был "отозван" по соображениям безопасности. Неясно, имеет ли базовая модель аналогичные фильтры.

Разнообразие предложений LLM

Выпуск DeepSeek LLM обозначает значительный шаг вперёд для Китая в области ИИ, расширяя ассортимент моделей для удовлетворения различных потребностей пользователей. Другие недавние предложения китайского ИИ включают Ernie 4.0 от Baidu, Yi 34B от 01.AI и модели Qwen с диапазоном от 1.8B до 72B.

Примечательно, что некоторые меньшие модели демонстрируют результаты, сопоставимые с большими, например, Yi 34B, которая показала способности, соответствующие Llama-2-70B и Falcon-180B. Эта тенденция указывает на то, что компании могут добиться эффективности, выбрав меньшие модели без компромиссов в эффективности, сохраняя вычислительные ресурсы при решении различных задач.

На прошлой неделе Microsoft вошла в это конкурентное пространство с моделями Orca 2, которые продемонстрировали превосходство в производительности по сравнению с моделями, в пять-десять раз превышающими их размер, включая Llama-2Chat-70B.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles