CodeElo

  • [[CodeElo:Benchmarking competition-level code generation of LLMs with human-comparable elo ratings.]]
  • 动机 :

    • 缺乏有效、全面、标准的基准测试
  • CodeForces 24.5 ~24.11
  • 35种算法标签
  • CodeForces 平台,罚时机制
  • 30个开源模型,3个闭源模型,统一链式思维
  • 低方差 elo
  • 49引用

LiveCodeBench pro

  • [[LiveCodeBench pro:How do olympiad medalists judge LLMs in competitive programming?]]
  • Codeforces、ICPC系列、IOI系列,~25.4
  • 动机:
    数据污染、评估环境不一致、测试用例薄弱、过度依赖工具;
    未能深入分析不同类型问题上的差异、缺乏人类专家级细粒度诊断。
  • 专家团队来进行标注与分类:
    知识密集型、逻辑密集型、观察密集型
  • 贝叶斯 Elo 评分
  • 未来:
    • 基准测试更新
    • 更细致的模型分析,模型在不同类型问题上的表现差异
    • 终端访问与工具调用能提升表现,未来基准测试应区分原生推理能力与工具增强能力
  • 9引用

Probench

  • [[ProBench:Benchmarking large language models in competitive programming.]]
  • 数据集:
    Cf、洛谷、Nowcoder,24.7~24.12
  • 七个知识类别:
    Basic、Search、String、Dynamic Programming (DP)、Data Structures (DS)、Graph和Mathematics (Math)。
  • 没有统一平台。
  • 动机:
    现有基准测试不足以评估模型在竞赛编程任务上的能力,对模型生成的代码测试不足,对模型能力分析了不足

LLM-ProS

  • [[LLM-ProS:Analyzing large language models’ performance in competitive problem solving.]]
  • 数据集:ICPC ,11~24
  • 过去题目 vs 24年新题
  • 九个类别:greedy、implementation、geometry、graph theory、dp、ad-hoc、binary search、math、game theory
  • codeforces gym 平台

Humanity’s last code exam

  • [[Humanity’s last code exam:Can advanced LLMs conquer human’s hardest code competition?]]
  • 动机:
    • 现有基准测试不足以区分最先进的模型
    • 现有基准缺乏对交互式编程问题的评估
    • 未能充分探索测试时扩展规律的作用
  • ICPC、IOI,10~24年
  • 自我认知任务

MapCoder

  • [[MapCoder:Multi-agent code generation for competitive problem solving. ]]

  • 动机:
    现有方法它们或仅关注生成过程的孤立环节,或依赖于可能不准确的AI生成测试用例进行调试,导致性能增益有限且不稳定。
    根据人类程序员的完整问题解决周期, 在不依赖额外 AI 生成测试用例的情况下,开发一个多智能体框架解决算法问题。

  • 解决问题前先”回忆”k 个相关问题,模拟人类的”类比推理”

  • 检索、规划、编码、调试

  • 简单问题
    pass@1 :83%~94%,提升一两成

    竞赛问题
    pass@1 :22%~25%,提升巨大
    不过,数据集较旧

FastFixer

  • [[FastFixer:An efficient and effective approach for repairing programming assignments. ]]
  • 动机:
    高效、有效地解决编程教育高级编程作业的自动化程序修复。
  • 训练阶段:修复导向的微调
    用先验知识给错误代码相关语句赋权,以调整损失函数的重点
  • 推理阶段:推理加速
    先进行最长前缀匹配,从错误代码的第一个不匹配的位置开始进行修改
  • [!NOTE] 发散
    修复导向的微调解决的问题类似于图像领域的类别不平衡问题

    应该也可以用 Focal loss

Evaluating and improving large language models for competitive program generation

  • [[ Evaluating and improving large language models for competitive program generation.]]
  • 统一的基准、评估方法、错误分类法,提出了一个改进框架
  • 基准中排除了金牌级高难度问题
  • 将错误分为通用错误和算法特定错误两大类
  • 改进框架:
    P1, 错误诊断
    P2, 基于多轮对话的修复
    P3, 信息增强的重新生成
  • 根据错误类型动态选择修复策略,对于无法修复的程序采用重新生成

Structured Chain of Thought

  • [[Structured chain-of-thought prompting for code generation]]

Chain-of-Thought in Neural Code Generation: From and for Lightweight Language Models

  • [[Chain-of-Thought in Neural Code Generation:From and for Lightweight Language Models]]

Revisiting Chain-of-Thought in Code Generation: Do Language Models Need to Learn Reasoning before Coding?

  • [[Revisiting Chain-of-Thought in Code Generation:Do Language Models Need to Learn Reasoning before Coding?]]

MSCoT

  • [[MSCoT:Structured Chain-of-Thought Generation for Multiple Programming Languages]]
  • #CCF/C 多语言 CoT 生成
  • 对比的基线方法
  • 使用或产生的数据集

REASONING DISTILLATION AND STRUCTURAL ALIGNMENT FOR IMPROVED CODE GENERATION

  • [[REASONING DISTILLATION AND STRUCTURAL ALIGNMENT FOR IMPROVED CODE GENERATION]]

Prompt Alchemy

  • [[Prompt Alchemy:Automatic Prompt Refinement for Enhancing Code Generation]]

%% kanban:settings

1
{"kanban-plugin":"board","list-collapse":[false,false,false,false,false,false,false,false,false,false,false,false,false,false]}

%%


http://example.com/posts/49.html
作者
司马吴空
发布于
2026年3月30日
许可协议