CodeElo
- [[CodeElo:Benchmarking competition-level code generation of LLMs with human-comparable elo ratings.]]
-
动机 :
- 缺乏有效、全面、标准的基准测试
- CodeForces 24.5 ~24.11
- 35种算法标签
- CodeForces 平台,罚时机制
- 30个开源模型,3个闭源模型,统一链式思维
- 低方差 elo
- 49引用
LiveCodeBench pro
- [[LiveCodeBench pro:How do olympiad medalists judge LLMs in competitive programming?]]
- Codeforces、ICPC系列、IOI系列,~25.4
- 动机:
数据污染、评估环境不一致、测试用例薄弱、过度依赖工具;
未能深入分析不同类型问题上的差异、缺乏人类专家级细粒度诊断。 - 专家团队来进行标注与分类:
知识密集型、逻辑密集型、观察密集型 - 贝叶斯 Elo 评分
- 未来:
- 基准测试更新
- 更细致的模型分析,模型在不同类型问题上的表现差异
- 终端访问与工具调用能提升表现,未来基准测试应区分原生推理能力与工具增强能力
- 9引用
Probench
- [[ProBench:Benchmarking large language models in competitive programming.]]
- 数据集:
Cf、洛谷、Nowcoder,24.7~24.12 - 七个知识类别:
Basic、Search、String、Dynamic Programming (DP)、Data Structures (DS)、Graph和Mathematics (Math)。 - 没有统一平台。
- 动机:
现有基准测试不足以评估模型在竞赛编程任务上的能力,对模型生成的代码测试不足,对模型能力分析了不足
LLM-ProS
- [[LLM-ProS:Analyzing large language models’ performance in competitive problem solving.]]
- 数据集:ICPC ,11~24
- 过去题目 vs 24年新题
- 九个类别:greedy、implementation、geometry、graph theory、dp、ad-hoc、binary search、math、game theory
- codeforces gym 平台
Humanity’s last code exam
- [[Humanity’s last code exam:Can advanced LLMs conquer human’s hardest code competition?]]
- 动机:
- 现有基准测试不足以区分最先进的模型
- 现有基准缺乏对交互式编程问题的评估
- 未能充分探索测试时扩展规律的作用
- ICPC、IOI,10~24年
- 自我认知任务
MapCoder
[[MapCoder:Multi-agent code generation for competitive problem solving. ]]
动机:
现有方法它们或仅关注生成过程的孤立环节,或依赖于可能不准确的AI生成测试用例进行调试,导致性能增益有限且不稳定。
根据人类程序员的完整问题解决周期, 在不依赖额外 AI 生成测试用例的情况下,开发一个多智能体框架解决算法问题。解决问题前先”回忆”k 个相关问题,模拟人类的”类比推理”
检索、规划、编码、调试
简单问题
pass@1 :83%~94%,提升一两成竞赛问题
pass@1 :22%~25%,提升巨大
不过,数据集较旧
FastFixer
- [[FastFixer:An efficient and effective approach for repairing programming assignments. ]]
- 动机:
高效、有效地解决编程教育高级编程作业的自动化程序修复。 - 训练阶段:修复导向的微调
用先验知识给错误代码相关语句赋权,以调整损失函数的重点 - 推理阶段:推理加速
先进行最长前缀匹配,从错误代码的第一个不匹配的位置开始进行修改 -
[!NOTE] 发散
修复导向的微调解决的问题类似于图像领域的类别不平衡问题应该也可以用 Focal loss
Evaluating and improving large language models for competitive program generation
- [[ Evaluating and improving large language models for competitive program generation.]]
- 统一的基准、评估方法、错误分类法,提出了一个改进框架
- 基准中排除了金牌级高难度问题
- 将错误分为通用错误和算法特定错误两大类
- 改进框架:
P1, 错误诊断
P2, 基于多轮对话的修复
P3, 信息增强的重新生成 - 根据错误类型动态选择修复策略,对于无法修复的程序采用重新生成
Structured Chain of Thought
- [[Structured chain-of-thought prompting for code generation]]
Chain-of-Thought in Neural Code Generation: From and for Lightweight Language Models
- [[Chain-of-Thought in Neural Code Generation:From and for Lightweight Language Models]]
Revisiting Chain-of-Thought in Code Generation: Do Language Models Need to Learn Reasoning before Coding?
- [[Revisiting Chain-of-Thought in Code Generation:Do Language Models Need to Learn Reasoning before Coding?]]
MSCoT
- [[MSCoT:Structured Chain-of-Thought Generation for Multiple Programming Languages]]
- #CCF/C 多语言 CoT 生成
- 对比的基线方法
- 使用或产生的数据集
REASONING DISTILLATION AND STRUCTURAL ALIGNMENT FOR IMPROVED CODE GENERATION
- [[REASONING DISTILLATION AND STRUCTURAL ALIGNMENT FOR IMPROVED CODE GENERATION]]
Prompt Alchemy
- [[Prompt Alchemy:Automatic Prompt Refinement for Enhancing Code Generation]]
%% kanban:settings
1 | |
%%