OpenAI o3-mini与DeepSeek-R1在各类基准测试中的大比拼

OpenAI终于发布了o3-mini,还为ChatGPT的所有用户免费提供了一些使用额度。但大家心里始终有个大大的疑问:OpenAI的o3-mini会比DeepSeek-R1更胜一筹吗?

虽说OpenAI官方团队并没有发布两者之间的直接对比数据,不过现在已经有一些对比基准测试冒了出来。这些测试显示,或许OpenAI-o3-mini-high的表现要比DeepSeek-R1更出色。

LiveBench系列

全球平均得分

  • OpenAI o3-mini:73.94
  • DeepSeek deepseek-r1:71.38
  • 对比分析:OpenAI o3-mini的全球平均得分稍高一些,这意味着在各类任务中,它的整体表现略微更优。

推理平均得分

  • OpenAI o3-mini:89.58
  • DeepSeek deepseek-r1:83.17
  • 对比分析:在推理任务方面,OpenAI o3-mini的表现远超DeepSeek deepseek-r1,这表明它在理解、分析信息并从中得出结论的能力上更为强大。

编程平均得分

  • OpenAI o3-mini:82.74
  • DeepSeek deepseek-r1:66.74
  • 对比分析:OpenAI o3-mini在编程任务上优势明显,这说明它在理解编程概念以及解决编程难题方面能力更出众。

数学平均得分

  • OpenAI o3-mini:65.65
  • DeepSeek deepseek-r1:79.54
  • 对比分析:恰恰相反,DeepSeek deepseek-r1模型在数学任务上表现更出色,展现出了更强的数字推理和问题解决能力。

数据分析平均得分

  • OpenAI o3-mini:70.64
  • DeepSeek deepseek-r1:69.78
  • 对比分析:OpenAI o3-mini在数据分析任务上稍有优势,反映出它在解释和处理数据集方面的能力略胜一筹。

语言平均得分

  • OpenAI o3-mini:50.68
  • DeepSeek deepseek-r1:48.53
  • 对比分析:OpenAI o3-mini在语言任务上有一定的优势。

IF平均得分

  • OpenAI o3-mini:84.36
  • DeepSeek deepseek-r1:80.51
  • 对比分析:OpenAI o3-mini的IF平均得分更高,这表明在广泛的任务中,它整体的智能水平或表现更为高效。

不止如此,OpenAI-o3-mini在以下测试中的得分也超过了DeepSeek-R1。

NYT Connections(谜题测试)

o3-mini模型以72.4的分数在排行榜上名列前茅,这显示出它在解决该基准测试中的谜题时非常高效。DeepSeek R1模型的得分为54.4,表现也不错,但与o3-mini模型相比,还是低了18分。

Humanity’s Last Exam

准确率(%)

这一指标衡量的是模型给出正确答案的比例。准确率越高,说明模型在得出正确答案方面的表现越好。

  • o3-mini (high):13.0%
  • DeepSeek-R1:9.4%
  • 对比分析:o3-mini (high)模型的准确率更高,这表明在该基准测试评估的任务中,它给出正确答案的能力更强。

校准误差(%)

这一指标衡量的是模型对自身预测结果的信心程度与这些预测实际正确性的匹配程度。校准误差越低,意味着模型的校准效果越好,即它的信心水平更可靠。

  • o3-mini (high):93.2%
  • DeepSeek-R1:81.8%
  • 对比分析:o3-mini (high)模型的校准误差更高,这可能意味着与DeepSeek-R1模型相比,它的校准效果较差。不过这里校准误差有点反直觉,较低的百分比实际上代表更好的校准效果。所以,DeepSeek-R1的校准效果更好。

其他基准测试

  • AIME 2024:O3-mini在复杂指令理解方面表现优于R1,但需要较高的推理能力。
  • SWE-bench Verified:O3-mini以0.1分的优势险胜R1,同样需要较高的推理能力。
  • Codeforces:O3-mini得分高于R1。
  • SWE-bench Benchmark:在此测试中,O3-mini的表现也优于R1。
  • AIME Benchmark:O3-mini领先R1。

API成本

o3-mini虽然价格还算亲民,但相比DeepSeek-R1的API成本还是要高一些。DeepSeek的R1推理模型通过API调用时,每百万个缓存输入令牌收费0.14美元 ,每百万个输出令牌收费2.19美元。相比之下,O3-mini每百万个缓存输入令牌定价0.55美元,每百万个输出令牌定价4.40美元,一百万个令牌大约相当于75万个单词。这使得O3-mini比O1-mini便宜63%,不过在价格上与DeepSeek的R1相比,还是稍逊一筹。

是否开源?

一如既往,OpenAI的模型并未开源。而在这一点上,DeepSeek-R1有着巨大的优势,它是完全开源的!

总结

总体而言,在大多数基准测试中,OpenAI的O3-mini表现优于DeepSeek-R1,尤其是在推理、编程以及一般任务处理方面。然而,DeepSeek-R1在数学任务上仍保持优势,并且在某些评估中校准效果更好。

在成本方面,DeepSeek-R1更为实惠,对于预算有限的用户来说,是个很不错的选择。两者最大的区别在于,DeepSeek-R1完全开源,而O3-mini依旧闭源,这也符合OpenAI一贯的做法。

那么,你更倾向于选择哪一个呢?是DeepSeek-R1还是o3-mini?

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文