Shiki

CodeElo

[[CodeElo：Benchmarking competition-level code generation of LLMs with human-comparable elo ratings.]]
动机：
- 缺乏有效、全面、标准的基准测试
CodeForces 24.5 ~24.11
35种算法标签
CodeForces 平台，罚时机制
30个开源模型，3个闭源模型，统一链式思维
低方差 elo
49引用

LiveCodeBench pro

[[LiveCodeBench pro：How do olympiad medalists judge LLMs in competitive programming？]]
Codeforces、ICPC系列、IOI系列，~25.4
动机：
数据污染、评估环境不一致、测试用例薄弱、过度依赖工具；
未能深入分析不同类型问题上的差异、缺乏人类专家级细粒度诊断。
专家团队来进行标注与分类：
知识密集型、逻辑密集型、观察密集型
贝叶斯 Elo 评分
未来：
- 基准测试更新
- 更细致的模型分析，模型在不同类型问题上的表现差异
- 终端访问与工具调用能提升表现，未来基准测试应区分原生推理能力与工具增强能力
9引用

Probench

[[ProBench：Benchmarking large language models in competitive programming.]]
数据集：
Cf、洛谷、Nowcoder，24.7~24.12
七个知识类别：
Basic、Search、String、Dynamic Programming (DP)、Data Structures (DS)、Graph和Mathematics (Math)。
没有统一平台。
动机：
现有基准测试不足以评估模型在竞赛编程任务上的能力，对模型生成的代码测试不足，对模型能力分析了不足

LLM-ProS

[[LLM-ProS：Analyzing large language models’ performance in competitive problem solving.]]
数据集：ICPC ，11~24
过去题目 vs 24年新题
九个类别：greedy、implementation、geometry、graph theory、dp、ad-hoc、binary search、math、game theory
codeforces gym 平台

Humanity’s last code exam

[[Humanity’s last code exam：Can advanced LLMs conquer human’s hardest code competition？]]
动机：
- 现有基准测试不足以区分最先进的模型
- 现有基准缺乏对交互式编程问题的评估
- 未能充分探索测试时扩展规律的作用
ICPC、IOI，10~24年
自我认知任务

MapCoder

[[MapCoder：Multi-agent code generation for competitive problem solving. ]]
动机：
现有方法它们或仅关注生成过程的孤立环节，或依赖于可能不准确的AI生成测试用例进行调试，导致性能增益有限且不稳定。
根据人类程序员的完整问题解决周期, 在不依赖额外 AI 生成测试用例的情况下，开发一个多智能体框架解决算法问题。
解决问题前先”回忆”k 个相关问题，模拟人类的”类比推理”
检索、规划、编码、调试
简单问题
pass@1 :83%~94%，提升一两成

竞赛问题
pass@1 :22%~25%，提升巨大
不过，数据集较旧

FastFixer

[[FastFixer：An efficient and effective approach for repairing programming assignments. ]]
动机：
高效、有效地解决编程教育高级编程作业的自动化程序修复。
训练阶段：修复导向的微调
用先验知识给错误代码相关语句赋权，以调整损失函数的重点
推理阶段：推理加速
先进行最长前缀匹配，从错误代码的第一个不匹配的位置开始进行修改
[!NOTE] 发散
修复导向的微调解决的问题类似于图像领域的类别不平衡问题

应该也可以用 Focal loss

Evaluating and improving large language models for competitive program generation

[[ Evaluating and improving large language models for competitive program generation.]]
统一的基准、评估方法、错误分类法，提出了一个改进框架
基准中排除了金牌级高难度问题
将错误分为通用错误和算法特定错误两大类
改进框架：
P1, 错误诊断
P2, 基于多轮对话的修复
P3, 信息增强的重新生成
根据错误类型动态选择修复策略，对于无法修复的程序采用重新生成

Structured Chain of Thought

[[Structured chain-of-thought prompting for code generation]]

Chain-of-Thought in Neural Code Generation: From and for Lightweight Language Models

[[Chain-of-Thought in Neural Code Generation：From and for Lightweight Language Models]]

Revisiting Chain-of-Thought in Code Generation: Do Language Models Need to Learn Reasoning before Coding?

[[Revisiting Chain-of-Thought in Code Generation：Do Language Models Need to Learn Reasoning before Coding？]]

MSCoT

[[MSCoT：Structured Chain-of-Thought Generation for Multiple Programming Languages]]
#CCF/C 多语言 CoT 生成
对比的基线方法
使用或产生的数据集

REASONING DISTILLATION AND STRUCTURAL ALIGNMENT FOR IMPROVED CODE GENERATION

[[REASONING DISTILLATION AND STRUCTURAL ALIGNMENT FOR IMPROVED CODE GENERATION]]

Prompt Alchemy

[[Prompt Alchemy：Automatic Prompt Refinement for Enhancing Code Generation]]

%% kanban:settings

1	`{"kanban-plugin":"board","list-collapse":[false,false,false,false,false,false,false,false,false,false,false,false,false,false]}`

%%

http://example.com/posts/49.html

作者

司马吴空

发布于

2026年4月5日

许可协议