OpenAI于周二举办了一场较为低调的DevDay大会,与去年高调的发布会不同,今年的会议更专注于AI工具和API的渐进式改进。2024年的活动着重于赋能开发者和突出社区故事,反映了在日益竞争的AI领域中的战略转变。
4个主要创新亮相
此次会议推出了四项关键创新,旨在提升开发者体验:视觉微调(Vision Fine-Tuning)、实时API(Realtime API)、模型蒸馏(Model Distillation)和提示缓存(Prompt Caching)。这些工具表明了OpenAI致力于强化开发者生态系统,而不是直接在终端用户应用领域竞争的决心。
提示缓存:降低开发成本
最引人注目的特性是提示缓存,这一系统旨在降低开发者的成本和延迟。开发者可以享受最近处理过的输入标记50%的折扣,为频繁重用上下文的应用节省了大量费用。OpenAI产品负责人Olivier Godement表示,在短短两年内,成本降低了近1000倍,使初创企业和大企业能够探索以前过于昂贵的新可能性。
2024年DevDay的定价表显示,相较于未缓存的标记,使用缓存标记的AI模型费用可减少高达50%。新推出的o1模型还引入了提升了能力的高级定价。
视觉微调:视觉AI的进步
OpenAI为GPT-4o模型推出的视觉微调功能,使开发者可利用文本和图像定制模型的视觉理解。这一进步对自动驾驶、医学影像和视觉搜索等行业带来了深远影响。
例如,东南亚主要的食品配送和共享出行服务Grab,利用这一技术提升了其地图服务。仅用100个训练示例,Grab就实现了20%的车道计数准确率提升和13%的限速标志定位提升,表明视觉微调在不同行业的AI应用中具有转变潜力。
实时API:提升对话式AI
OpenAI还推出了实时API,目前处于公开测试阶段,允许开发者创建低延迟的多模态语音应用。这使得应用中可以无缝整合语音命令,提升用户互动体验。OpenAI展示了更新版的Wanderlust,用户可以自然地与应用对话规划行程,甚至可以在句子中间打断,使之更贴近人类对话。
实时API不仅在旅游领域带来机遇,也扩展到客服和教育等多个行业。早期采用者如Healthify和Speak已成功整合,提升了医疗保健和语言学习中的用户体验。虽然API的定价为音频输入每分钟0.06美元、输出每分钟0.24美元,但对希望构建语音应用的开发者来说,这是一项值得投资的资源。
模型蒸馏:让AI更易获取
模型蒸馏的推出可能颠覆开发者的工作方式,让他们能够利用o1-preview和GPT-4o等先进模型的输出,来增强更高效的GPT-4o mini等模型。这个工作流程使得像医疗科技初创企业这样的中小型公司能够使用先进模型的能力,而不必承担相同的计算成本,从而改善服务不足地区的医疗成果。
OpenAI的战略转变:聚焦可持续增长
OpenAI的2024 DevDay标志着该公司向构建可持续AI生态系统的战略转变,避免追求引人注目的产品发布。尽管这种方式对公众可能显得不那么激动,但这反映了对竞争日益激烈以及数据可用性担忧的深刻理解。
与2023年的突破性发布不同,今年更注重精炼工具和赋能开发者,展示了OpenAI希望在降低资源消耗和环境影响的同时保持竞争优势。当OpenAI从颠覆者转变为平台提供商时,其长期成功将依赖于增强开发者生态系统。通过提供改进的工具、降低成本和增强支持,OpenAI为各行业的可持续AI应用打下了基础。