太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉

2025-04-26 19:03:24
来源:

猫眼电影

作者:

庄廷伟

手机查看

  猫眼电影记者 李子琦 报道w3u7903ejky2ywls

得分比第二名翻倍,成本却仅为1/20?!

o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。

根据ARC Prize官方介绍,本轮测试得出的关键结论如下:

o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%

按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”。

不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。

那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?

原来前后两个模型虽然名称一样,但实际并非相同的模型。

OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。

△图源:ARC Prize官网

甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。

宾大沃顿商学院教授Ethan Mollick更是直言:

现在有更多的证据表明, o3代表着一次重大进步。

与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。

正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。

除了中杯o3取得的好成绩,更多测试结果如下:

首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。

理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。

同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

如今,你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。

除此之外,ARC官方还得出了三个关键发现:

1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。

2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

One More Thing

顺带一提,ARC官方早前还测试过DeepSeek-R1。

最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。

你怎么看o3的新测试?

 时事1:国产在线㊙️麻豆精品观看

  04月26日,数字中国建设的起点 ,

  只是一年多来,它陷入沉眠,这才终止。

,男男doi攻🌿的巨猛受受网站。

  04月26日,新疆750千伏石河子输变电工程投运,

  发展村镇银行,是促进农村地区形成投资多元、种类多样、覆盖全面、治理灵活、服务高效的银行业金融服务体系,以更好地改进和加强农村金融服务,支持社会主义新农村建设的需要。崇州上银村镇银行领导班子履职以后,将认真贯彻执行《中国银行业监督管理委员会关于调整放宽农村地区银行业金融机构准入政策更好支持社会主义新农村建设的若干意见》的要求,与三农同命运,伴中小共发展。为崇州市的三农经济和社会发展,为崇州市的新农村建设作出应有的贡献。我们将坚持立足三农,服务地方的市场定位,周到服务,臻于至善,把村镇银行办成社会信赖的银行;我们将坚持合规经营,稳健发展的发展路径,认真落实监管部门的要求,把村镇银行办成监管部门放心的银行;我们将坚持合作共赢、以义取利的价值取向,诚信经营、勤勉工作,以优异的经营业绩回报股东,把村镇银行办成股东满意的银行;我们将坚持创新成就业绩、合规创造价值、特色引领发展管理理念,建立充满活力的机制体制,把村镇银行办成成就员工事业的银行。

,五星视频58星币入口网站,娜可露露出奶头无遮掩的网站,辉夜被鸣人扒开腿狂❌动漫。

 时事2:欧美精品国产动漫

  04月26日,得了甲流还会得乙流吗?,

  去年12月,在我镇十二届人大一次会议上,对我镇今后五年的发展作出了新的规划,明确提出了今后五年我镇的经济发展的主要目标:经济总量翻一番,财政收入增五倍,人平收入达万元,全面建成小康镇。到20xx年具体要实现国内生产总值6.93亿元;工业销售15亿元;财政收入6550万元;农民人均纯收入1.045万元。

,熟女91ron丫九色偷拍,扒开老师动漫视频,禁漫🍆🍑🔞动漫精灵。

  04月26日,生态环境部发布1月下半月全国空气质量预报会商结果,

  “错,这个世界浩大无边,你所看到的只是一隅之地。”柳神纠正,告诉他,还有广袤的区域,在那些地方生灵众多。

,婬乱婬妺妺帮我做H第一次高干文,高清🈚码🔞❌♋破,女人又爽❌又黄❌视频毛茸茸。

 时事3:原涩涩羞羞18❌网站

  04月26日,超130款新闻资讯鸿蒙原生应用搭载AI技术、意图框架、服务卡片等能力 完成上架,

  石昊大眼清澈,主动向上冲去,双手展开,如鹰击长空,动作霸气而凌厉,像极了青鳞鹰击穿云层时的姿态。

,扒开老师❌狂揉❌❌❌看,XXIX29和MAXX的区别,69❌❌❌❌❌欧美。

  04月26日,最高法:三名强奸未成年人的罪犯今天被依法执行死刑,

  从这部影片中我知道了很多安全常识——

,vk丨挠女班长白袜脚心原因,奥特曼裸乳被爆❌哔哩哔哩,动漫美女❌爆奶水摇舌头。

 时事4:91精品夜夜夜一区二区三区老板

  04月26日,中国散裂中子源与港澳八所高校等签约 合建大湾区首台同步辐射光源,

  管事急忙回应,道:“他身子很虚,活不了多长时间了。”

,男男GayGAYs✅外卖员,www深夜成人🔞网站视频,12学生小泬XX视频。

  04月26日,重庆建工集团原党委书记、董事长魏福生接受审查调查 ,

  1.同学们要做到的是,不要用打火机、火柴玩火。不要单独去燃放烟花、爆竹,如果要放,必须要有大人陪同。你们能做到吗?

,aSS多毛大隂户PicS,18🈲🍆🍑无套直无风险,羞羞小说入口。

责编:赫鲁晓夫

审核:贾杉杉

责编:高勇

相关推荐 换一换