从生成式AI 1.5到2.0:从检索增强生成转向高级智能体系统

生成性人工智能基础模型的解决方案开发

我们已经探索生成性人工智能基础模型超过一年。最初集中于大型语言模型(LLMs),如今我们看到多模态模型的崛起,这些模型不仅能理解,还能生成图像和视频,使“基础模型”(FM)这一术语更加恰当。随着领域的发展,我们正在识别模式,以有效地将这些解决方案投入生产,并通过信息的定制满足多样化需求,从而创造有意义的影响。未来有众多变革性机会,承诺提升LLMs的复杂性和价值,但这些进展需要谨慎的成本管理。

理解基础模型

要有效利用FM,我们需要理解其内部工作原理。这些模型将文字、图像、数字和声音转换为令牌,并预测最相关的“下一个令牌”来吸引用户。过去一年的反馈使Anthropic、OpenAI、Mixtral和Meta等公司开发的核心模型与用户期望更加贴近。

对令牌格式化重要性的认识带来了性能的提升——YAML通常优于JSON。社区开发了“提示工程”技术,以增强模型响应。例如,使用少量示例提示可以引导模型的输出,而思维链提示则能为复杂查询提供更全面的答案。许多活跃的生成性AI聊天服务用户可能已经注意到这些增强。

LLM能力的进展

扩展LLM的信息处理能力是其进步的基础。最新模型现在可以管理多达100万个令牌,相当于一本完整的大学教材,使用户能够前所未有地控制上下文相关性。例如,使用Anthropic的Claude,我帮助一位医生分析一份复杂的700页指导文件,相关入学考试的准确率达85%。此外,基于概念而非关键词的信息检索技术进一步丰富了知识基础。

如titan-v2和cohere-embed等新兴嵌入模型,通过将多种来源转换为源自广泛数据集的向量,实现相关文本的检索。数据库系统中的向量查询集成和专门的向量数据库(如Turbopuffer)使得在保持性能的同时,能够对庞大的文档集合进行扩展。

尽管这些进展显著,但扩展解决方案仍然具有挑战性,需要跨学科的合作,以优化LLM应用程序的安全性、可扩展性、延迟、成本效率和响应质量。

Gen 2.0与代理系统的创新

尽管最近的改进提升了模型性能和应用可行性,但我们正处于新一轮进化的边缘:整合多种生成性AI功能。初期阶段涉及创建手动实施的行动链,例如BrainBox.ai的ARIA系统,该系统能解析设备故障图像,访问相关知识库并查询物联网数据源以提出解决方案。然而,这些系统在逻辑上存在局限,需要开发者提供硬编码定义,或限于简单的决策路径。

接下来的阶段,Gen AI 2.0,设想了利用多模态模型的灵活代理系统,由推理引擎(通常是LLM)驱动。这些代理将问题分解为可管理的步骤,并选择适当的AI工具进行执行,根据每个阶段的结果调整其方法。

这种模块化方法增强了灵活性,使系统能够处理复杂任务。例如,Cognition Labs的Devin.ai可以自动化端到端的编程任务,减少大量人工干预,并快速完成过程,而亚马逊的Q for Developers则支持自动的Java升级。

在医疗行业,医疗代理系统可以综合电子健康记录(EHR)、影像、基因信息和临床文献,得出全面的治疗建议。此外,多种专业代理可以协作生成详细的患者档案并自主执行多步骤的知识流程,从而减少人工监督的需求。

不过,这些先进系统可能因大量的LLM API调用而产生显著成本,因此,LLM优化的平行进展(涵盖硬件(如NVIDIA Blackwell)、框架(Mojo)、云(AWS Spot实例)和模型配置(参数大小、量化))对于有效管理开支至关重要。

结论

随着组织在部署LLM方面的不断演变,重点将转向快速高效地实现高质量输出。考虑到快速变化的节奏,与经验丰富的生成性AI解决方案优化团队合作对成功至关重要。

Most people like

Find AI tools in YBX