太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉

2025-04-30 04:40:49
来源:

猫眼电影

作者:

威廉·康拉德·伦琴

手机查看

  猫眼电影记者 骆宾王 报道w3u7903ejky2ywls

得分比第二名翻倍,成本却仅为1/20?!

o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。

根据ARC Prize官方介绍,本轮测试得出的关键结论如下:

o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%

按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”。

不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。

那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?

原来前后两个模型虽然名称一样,但实际并非相同的模型。

OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。

△图源:ARC Prize官网

甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。

宾大沃顿商学院教授Ethan Mollick更是直言:

现在有更多的证据表明, o3代表着一次重大进步。

与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。

正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。

除了中杯o3取得的好成绩,更多测试结果如下:

首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。

理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。

同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

如今,你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。

除此之外,ARC官方还得出了三个关键发现:

1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。

2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

One More Thing

顺带一提,ARC官方早前还测试过DeepSeek-R1。

最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。

你怎么看o3的新测试?

 时事1:男同GaYGAYS✅白袜体育

  04月30日,美滞留空间站宇航员将于明年二月改乘“龙”飞船返回地球,

  “怎么回事?”城门口发生骚动,惊动了城中的战将,一条主街上顿时冲出一群甲胄锃亮、战矛寒光闪烁的军士,正好迎上十五爷。

,校草隔着裤子自慰h。

  04月30日,长春一婚姻登记处“浪漫满屋”让新人惊喜,

  与此同时,青鳞鹰交织出的符文发威,将鼠王震的浑身出现一道道可怕的血痕,伤势极重,坠向山石间。

,思涵和老外最新视频2023年的介绍,动漫美女❌脱脱内内,鉴黄师成人免费观看视频。

 时事2:慢脚文化免费观看网页

  04月30日,奋力谱写新时代新征程民政事业高质量发展新篇章——习近平总书记重要指示为民政事业发展指明方向、注入动力,

  “怎么会这样?!”诸强惊呼。

,肌肉军警Gay自慰网站,女人扒开腿㊙️免费视频粉色视频,真人实景女处被破www免费看。

  04月30日,【何以中国•运载千秋】遇见大运河丨因水而兴的商贾繁盛,

  血花溅起,响声不绝,柳条轻灵的挥过,成片的尸体坠落在地,或被截断,或被劈成两片,血花一朵又一朵的绽放。

,憨憨倩劲爆跳舞,16位妓女撒尿视频在线观看,男生洗澡露j🔞㊙️。

 时事3:动漫美女裸体被❌涩涩动画

  04月30日,茶卡盐湖:高原上的梦幻画卷,

  “爷爷还有父亲说了,要我和你定亲,你什么时候答应啊?”石飞蛟的女儿大声问道。

,变态捆绑美女XXXX视频,精东www含羞草无码入口,白人被黑人视频网站。

  04月30日,防范极端意识形态,澳大利亚提升恐怖威胁级别,

  还是我五岁那年。我一个人在房间里玩,无意之间看到了一个打火机,我学着爸爸的样貌使劲按了几下,“咔嚓”一声,没想到竟然被我给点着了,差点烧到我的手,我十分害怕。便把燃烧着的打火机扔进了垃圾桶,没想到垃圾桶也烧起来了。我迅速把爸爸妈妈扯进房间。爸爸妈妈一进门便吓得目瞪口呆,立即拿来了一盆清水,把燃烧的垃圾桶扑灭了。这下我才松了口气,之后爸爸妈妈严肃地批评了我,告诉我:如果不及时扑灭的话,后果将不堪设想。因为,火不断地蔓延,会把整栋楼化为灰烬。并告诫我以后再也不能犯同样的错误了。从那一刻起我就明白了:不是任何东西都能够拿来玩,异常是火这一类危险物品,千万不能随便玩弄。否则,失去的将是宝贵的生命。

,做爰高潮120分钟视频,成人免费色情美女视频抹茶,亚洲A片人獸交XXOO。

 时事4:揉⋯啊⋯嗯~出水了网站

  04月30日,填补空白 中国团队可让产妇全面实现无创产前筛查,

  总之,我以后再也不犯这种明知故犯得错误了。想要生命之树长青,就请遵守交通规则。

,小🐔🐔伸进🈲1818,3d无尽动漫可爱得到男,视频丨9l❤️丨大学生国产。

  04月30日,中华文化圈粉记|一个美国人在江南水乡办起博物馆,

  人们常说,一年之季在于春。在人们的意识里,秋只是一个收获的季节。但是在这里,在美丽的甘中校园,对我们来说,秋既是收获的季节,又是播种的最佳时机。因此,在新学年的第一天,向全体同学提出三点希望:

,大美女出水o,动漫裸体啪啪h动画霸道总裁,女S调教视频丨ⅤK。

责编:刘郑国

审核:陈佩亮

责编:陈忠康

相关推荐 换一换