总部位于旧金山的Datasaur是一家专注于AI项目文本和音频标注的初创公司,近日推出了LLM Lab——一个全面的平台,旨在帮助团队创建和训练类似于ChatGPT的自定义大型语言模型应用。
LLM Lab提供云端和本地部署选项,帮助企业构建内部生成AI应用,同时降低与第三方服务相关的数据隐私风险,为团队提供更大的项目控制权。
Datasaur的创始人兼首席执行官Ivan Lee表示:“我们开发了一个解决常见痛点的工具,支持不断发展的最佳实践,并简化了整个过程。“凭借我们为内部用户和客户构建自定义模型的经验,我们开发了一个可扩展、用户友好的LLM产品。”
Datasaur LLM Lab的关键特点
自2019年成立以来,Datasaur一直在推动AI和自然语言处理(NLP)领域强大的数据标注平台。LLM Lab的推出标志着这些产品的重要演进。
Lee解释道:“这个工具超越了我们传统的NLP关注点,比如实体识别和文本分类。LLMs代表了下一代语言技术,我们旨在成为文本、文档和音频AI应用的行业首选解决方案。”
目前,LLM Lab为LLM应用开发的各个组成部分提供统一的接口,包括内部数据输入、数据准备、增强生成(RAG)、嵌入模型选择以及优化LLM响应。该产品遵循模块化、可组合性、简洁性和可维护性原则设计。
Lee补充说:“这种方法有效管理不同的文本嵌入、向量数据库和基础模型。LLM领域的动态特性需要一个技术无关的平台,使用户能够互换技术以寻找最佳解决方案。”
使用LLM Lab时,用户首先选择一个基础模型,并调整相关设置,例如温度和最大响应长度。支持的模型包括Meta的Llama 2、阿布扎比技术创新研究院的Falcon以及Anthropic的Claude,配合Pinecone向量数据库。
随后,用户可以选择提示模板以测试其有效性,并上传文档进行RAG处理。完成这些配置后,他们可以确定设置,以确保质量表现并部署该应用。用户可以对提示与完成对进行评分,并通过人类反馈强化学习(RLHF)整合反馈进行模型微调。
克服技术挑战
尽管Lee没有透露目前有多少家公司正在测试LLM Lab,但他表示早期用户反馈积极。用户GLAIR.ai的创始人兼CEO Michell Handaka强调,该实验室促进了工程团队与非工程团队之间更好的沟通,有效打破了LLM应用开发的障碍。
Datasaur已经在金融、法律和医疗等关键行业支持将非结构化数据转化为有价值的机器学习数据集。知名合作伙伴包括Qualtrics、Ontra、Consensus、LegalTech和Von Wobeser y Sierra。
Lee指出:“我们正在支持具有前瞻性的行业领袖,预计2024年收入将增长五倍。”
Datasaur和LLM Lab的未来发展
在新的一年里,Datasaur计划增强LLM Lab,并进一步投资于企业级LLM开发。用户将能够保存成功的配置并与同事共享见解。实验室还将纳入新兴的基础模型。
随着对定制、隐私优先的LLM应用需求不断上升,LLM Lab有望产生显著影响。2023年LLM调查报告显示,近62%的受访者正在使用像ChatGPT和GitHub Copilot这样的LLM应用进行聊天机器人、客户支持和编码等功能。
面对日益增长的隐私担忧,许多公司正在从通用模型转向符合安全、隐私和法规标准的定制内部解决方案。