OpenAI推出具视觉功能的GPT-4 Turbo通用API访问权限

Home AI News CN OpenAI推出具视觉功能的GPT-4 Turbo通用API访问权限

随着企业开发者和精明的商业领袖认识到应用程序编程接口（API）在现代软件开发中的重要性，OpenAI 最近对其强大的 GPT-4 Turbo 大型语言模型（LLM）的 API 进行了重大改进。

OpenAI 在其 X 账户上宣布，具备视觉功能的 GPT-4 Turbo 模型现已通过 API “全面上线”。该视觉能力与音频上传功能一起于 2023 年 9 月推出，而 GPT-4 Turbo 则是在 11 月的开发者大会上发布。此版本承诺提供更快的处理速度、更大的输入上下文窗口（高达 128,000 个标记——大约相当于 300 页书），并且使用成本低廉。

开发者现在可以通过文本格式的 JSON 和函数调用来利用模型的视觉识别与分析功能，从而实现与连接应用程序的各种自动化操作——如发送电子邮件、在线发帖或进行购物。OpenAI 强调，在执行影响用户环境的操作之前，实施用户确认流程的重要性。

OpenAI 的发言人表示，这些改进简化了开发者的工作流程，因为他们之前需要分别使用文本和图像模型。现在，单个 API 调用即可实现无缝的图像分析和推理。

OpenAI 展示了多家客户利用 GPT-4 Turbo 视觉功能的案例，包括启动公司 Cognition，该公司使用该模型自动生成代码，健康与健身应用 Healthify 则通过用户提交的照片提供营养分析和餐食建议。此外，总部位于英国的初创公司 TLDraw 利用 GPT-4 Turbo 视觉功能增强其虚拟白板，将用户的手绘图转化为功能性网站。

尽管 GPT-4 Turbo 在基准测试中面临来自 Anthropic 的 Claude 3 Opus、Cohere 的 Command R+ 和 Google 的 Gemini Advanced 等新模型的竞争，但 GPT-4 Turbo 视觉功能的推出旨在吸引更多企业客户和开发者。这一举措将 OpenAI 的模型定位为一个有吸引力的选择，尤其在业界期待其下一个 LLM 发布之际。

Collibra创新治理应用应对“影子AI”挑战

释放资产潜力：州街投资者借助生成性AI与数据互动