OpenAI发布视觉推理模型o3和o4

内容摘要【TechWeb】4月17日消息,OpenAI发布两大视觉推理模型OpenAI o3和o4-mini,这也是OpenAI o系列中首次可以使用图像进行思维链推理的模型。OpenAI还开源了轻量级编程Agent——Codex CLI。Open

联系电话:400-962-3929

【TechWeb】4月17日消息,OpenAI发布两大视觉推理模型OpenAI o3和o4-mini,这也是OpenAI o系列中首次可以使用图像进行思维链推理的模型。OpenAI还开源了轻量级编程Agent——Codex CLI。

OpenAI o3是最强大的推理模型,它非常适合需要多方面分析的复杂查询,它在分析图像、图表和图形等视觉任务上表现尤其出色。o3在解决困难的现实世界任务中比OpenAI o1犯的主要错误少20%,尤其是在编程、商业/咨询和创造性思维等领域表现出色。

OpenAI o4-mini是一个针对快速、成本效益推理进行优化的较小模型。它在大小和成本方面取得了显著的性能,特别是在数学、编码和视觉任务方面。它在非STEM任务以及数据科学等领域的表现也优于其前身o3-mini。

值得注意的是,OpenAI特别强调,o3和o4-mini可以通过API中的函数调用完全访问ChatGPT中的工具,以及用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出详细而周到的答案。

OpenAI举例称,例如,用户可能会问:“与去年相比,加利福尼亚州的夏季能源使用情况如何?”该模型可以在网络上搜索公用事业数据,编写Python代码来构建预测,生成图表或图像,并解释预测背后的关键因素,将多个工具调用链接在一起。推理允许模型根据需要对遇到的信息做出反应和调整。例如,他们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。这种灵活的战略方法使模型能够处理需要访问模型内置知识之外的最新信息、扩展推理、综合和跨模式输出生成的任务。

目前,ChatGPT Plus、Pro和Team用户可以使用o3、o4-mini和o4-mini-high,这些模型会取代o1、o3-mini和o3-mini-high。o3和o4-mini通过Chat Completions API和Responses API向开发者开放。

OpenAI预计在几周内发布OpenAI o3-pro,并配备完整工具支持。

同时,OpenAI还宣布开源编程Agent Codex CLI,目前Codex CLI已在github上完全开源。

Codex CLI是一个可以在端侧运行的轻量级编码Agent,它直接在用户的计算机上工作,旨在最大限度地提高o3和o4-mini等模型的推理能力,并将支持GPT‑4.1等其他API模型⁠。(宜月)

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: