随着企业开发者和精明的商业领袖认识到应用程序编程接口(API)在现代软件开发中的重要性,OpenAI 最近对其强大的 GPT-4 Turbo 大型语言模型(LLM)的 API 进行了重大改进。
OpenAI 在其 X 账户上宣布,具备视觉功能的 GPT-4 Turbo 模型现已通过 API “全面上线”。该视觉能力与音频上传功能一起于 2023 年 9 月推出,而 GPT-4 Turbo 则是在 11 月的开发者大会上发布。此版本承诺提供更快的处理速度、更大的输入上下文窗口(高达 128,000 个标记——大约相当于 300 页书),并且使用成本低廉。
开发者现在可以通过文本格式的 JSON 和函数调用来利用模型的视觉识别与分析功能,从而实现与连接应用程序的各种自动化操作——如发送电子邮件、在线发帖或进行购物。OpenAI 强调,在执行影响用户环境的操作之前,实施用户确认流程的重要性。
OpenAI 的发言人表示,这些改进简化了开发者的工作流程,因为他们之前需要分别使用文本和图像模型。现在,单个 API 调用即可实现无缝的图像分析和推理。
OpenAI 展示了多家客户利用 GPT-4 Turbo 视觉功能的案例,包括启动公司 Cognition,该公司使用该模型自动生成代码,健康与健身应用 Healthify 则通过用户提交的照片提供营养分析和餐食建议。此外,总部位于英国的初创公司 TLDraw 利用 GPT-4 Turbo 视觉功能增强其虚拟白板,将用户的手绘图转化为功能性网站。
尽管 GPT-4 Turbo 在基准测试中面临来自 Anthropic 的 Claude 3 Opus、Cohere 的 Command R+ 和 Google 的 Gemini Advanced 等新模型的竞争,但 GPT-4 Turbo 视觉功能的推出旨在吸引更多企业客户和开发者。这一举措将 OpenAI 的模型定位为一个有吸引力的选择,尤其在业界期待其下一个 LLM 发布之际。