论文标题:Humanity’s Last Code Exam: Can Advanced LLMs Conquer Human’s Hardest Code Competition?
期刊/会议:未明确(技术报告,arXiv风格)
研究背景与动机
该论文旨在解决当前大语言模型在代码生成任务中面临的评估瓶颈问题。随着LLM在代码生成任务上的表现不断提升,传统基准测试(如HumanEval、MBPP、LiveCodeBench等)的难度已不足以区分最先进的模型,导致其性能在这些基准上趋于饱和。此外,现有基准大多采用标准输入输出评估,缺乏对交互式编程问题的评估能力,同时也未能充分探索测试时扩展规律在代码生成任务中的作用。
基于此,作者提出构建一个更具挑战性的代码生成基准——HLCE,旨在评估LLM在高难度编程竞赛问题上的表现,并探究其自我认知能力与测试时扩展行为。HLCE收集了来自ICPC World Finals和IOI这两个顶级编程竞赛的235道题目,时间跨度为2010年至2024年,涵盖了标准I/O与交互式两种题型,难度远超现有基准。
论文核心方法和步骤
![[Pasted image 20250928152550.png]]
1. HLCE基准构建
- 数据来源:ICPC World Finals(146题)与IOI(89题)。
- 数据处理:手动提取题目描述,使用ChatGPT辅助格式化;收集官方测试用例;过滤不兼容或缺失测试用例的题目。
- 任务设计:
- 代码生成任务:要求模型生成可通过所有测试用例的代码。
- 自我认知任务:要求模型判断自己生成的代码是否正确,评估其元认知能力。
2. 评估框架
- ICPC题目:使用Python框架进行标准I/O测试。
- IOI题目:通过自动化提交机器人接入Codeforces IOI评测系统,获取官方评分。
- 自我认知任务:使用AUC指标评估模型判断自身代码正确性的能力,公式如下:
$$
AUC = \int_{0}^{1} TPR(FPR^{-1}(t))dt
$$
3. 实验设计
- 模型选择:包括推理模型(如o4-mini、Gemini-2.5-Pro、DeepSeek-R1)与非推理模型(如GPT-4o-mini、Claude-3.7-Sonnet)。
- 评估指标:
- pass@k:衡量模型在k次尝试中至少有一次生成正确代码的概率:
$$
\text{pass@k} = \mathbb{E}_{x\sim D}\left[1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}\right]
$$
- AUC:用于自我认知任务的性能评估。
4. 测试时扩展规律分析
- 将模型生成的响应按推理长度分组,分析pass@1随“思考时间”增长的变化趋势,验证测试时扩展规律是否成立。
实验结果与结论
主要实验结果
代码生成任务:
- 最强模型**o4-mini(high)**在HLCE上的pass@1仅为15.85%,远低于其在HumanEval等基准上的表现(>98%)。
- IOI题目难度显著高于ICPC,o4-mini(high)在IOI上的pass@1仅为6.48%,反映出交互式问题的挑战性。
- 推理模型普遍优于非推理模型,但Claude-3.7-Thinking在IOI上表现异常(0% pass@1),推测是因优化目标偏向软件工程而非竞赛编程。
自我认知任务:
- ChatGPT-4o-latest在非推理模型中AUC最高(0.84),而DeepSeek-R1在推理模型中最高(0.81)。
- 自我认知能力与代码生成能力不具强相关性,表明两者在现有模型架构中可能独立发展。
测试时扩展规律:
- 所有模型均显示出随着推理时间增加,pass@1逐渐提升的趋势,表明测试时扩展规律在代码生成任务中依然成立。
- 即使是最强模型,其性能仍未达到饱和,说明仍有提升空间。
与人类选手对比:
- 在ICPC中,o4-mini(high) 可达到金牌水平;在IOI中,Gemini-2.5-Pro 可达到银牌水平。
- 然而,模型的pass@1率远低于其最佳表现,说明其单次生成正确率低,但具备多次尝试后达到高分的能力。
结论与意义
- HLCE作为一个高难度、多样化、具有交互性的代码生成基准,有效揭示了当前LLM在复杂编程任务中的局限性。
- 研究强调了测试时扩展与自我认知能力作为未来代码LLM发展的重要方向。
- 尽管LLM已在部分竞赛中达到人类奖牌水平,但其单次生成可靠性与交互式问题处理能力仍需进一步提升。
- HLCE的发布有望推动代码生成模型向更高层次的推理与协作编程能力发展,并为评估AGI级别的代码理解与生成能力提供重要参考。
http://example.com/posts/45.html