Сан-Франциско, основанный стартап Datasaur, специализирующийся на маркировке текста и аудио для проектов ИИ, запустил платформу LLM Lab — комплексное решение, разработанное для помощи командам в создании и обучении кастомизированных приложений больших языковых моделей, подобных ChatGPT.
LLM Lab предлагает варианты развертывания как в облаке, так и на местах, позволяя компаниям создавать внутренние генеративные ИИ-приложения, снижая риски, связанные с бизнесом и конфиденциальностью данных, которые часто возникают при использовании сторонних сервисов. Это дает командам больший контроль над своими проектами.
«Мы создали инструмент, который решает общие проблемы, поддерживает развивающиеся лучшие практики и отражает нашу дизайнерскую философию — упрощать процесс», — сказал Иван Ли, CEO и основатель Datasaur. «Опираясь на наш опыт в создании кастомизированных моделей для внутреннего использования и клиентов, мы разработали масштабируемый, удобный продукт LLM».
Ключевые особенности LLM Lab от Datasaur
С момента своего основания в 2019 году Datasaur совершенствует надежную платформу аннотирования данных для ИИ и NLP. Запуск LLM Lab стал значительной эволюцией этих предложений.
«Этот инструмент выходит за рамки нашего традиционного фокуса на обработку естественного языка (NLP), которая включает методы такие как распознавание сущностей и классификацию текста», — объяснил Ли. «LLM представляют собой следующую генерацию языковых технологий, и мы стремимся стать основным решением отрасли для приложений ИИ в области текста, документов и аудио».
В настоящее время LLM Lab предоставляет единый интерфейс для различных компонентов разработки приложений LLM, включая внутреннюю загрузку данных, подготовку данных, генерацию с поддержкой извлечения (RAG), выбор встроенной модели и оптимизацию ответов LLM. Продукт разработан с учетом принципов модульности, компонируемости, простоты и поддерживаемости.
«Этот подход эффективно управляет различными векторными эмбеддингами, векторными базами данных и базовыми моделями. Динамичный характер области LLM требует технологии-агностической платформы, позволяющей пользователям менять технологии для достижения оптимальных решений», — добавил Ли.
Чтобы начать использовать LLM Lab, пользователи выбирают базовую модель и настраивают связанные параметры, такие как температура и максимальная длина ответа. Поддерживаемые модели включают Llama 2 от Meta, Falcon от Института технологических инноваций в Абу-Даби и Claude от Anthropic, а также Pinecone для векторных баз данных.
Далее пользователи могут выбрать шаблоны запросов для проверки их эффективности и загружать документы для RAG. После этих настроек они могут доработать параметры для качественной работы и развернуть приложение. Пользователи могут оценивать пары запросов и завершений, а также вносить отзывы для доработки моделей с помощью обучения с подкреплением на основе человеческой обратной связи (RLHF).
Преодоление технических вызовов
Хотя Ли не раскрыл количество компаний, тестирующих LLM Lab, он сообщил о положительных отзывах от первых пользователей.
Мичелл Хандака, основатель и CEO GLAIR.ai, пользователя платформы, подчеркнул, что Лаборатория способствует лучшему взаимодействию между инженерными и неинженерными командами, эффективно разрушая барьеры в разработке приложений LLM.
Datasaur уже поддерживает ключевые отрасли, включая финансы, право и здравоохранение, в трансформации неструктурированных данных в ценные наборы данных для машинного обучения. Среди заметных партнеров — Qualtrics, Ontra, Consensus, LegalTech и Von Wobeser y Sierra.
«Мы поддерживаем прогрессивных лидеров отрасли и прогнозируем пятерное увеличение дохода в 2024 году», — отметил Ли.
Будущее развития Datasaur и LLM Lab
В следующем году Datasaur планирует улучшить LLM Lab и инвестировать в развитие LLM на уровне предприятий. Пользователи смогут сохранять успешные конфигурации и делиться мнениями с коллегами. Лаборатория также будет включать новые и перспективные базовые модели.
Учитывая растущий спрос на кастомизированные приложения LLM, ориентированные на конфиденциальность, LLM Lab готов оказать значительное влияние. Согласно отчету о исследовании LLM за 2023 год, почти 62% респондентов используют LLM-приложения, такие как ChatGPT и GitHub Copilot, для задач, таких как чат-боты, поддержка клиентов и кодирование.
В свете растущих опасений по поводу конфиденциальности многие компании переходят от универсальных моделей к кастомизированным внутренним решениям, соответствующим стандартам безопасности, конфиденциальности и регуляторных норм.