论文标题:LLM-ProS: Analyzing Large Language Models’ Performance in Competitive Problem Solving
期刊/会议:未明确(预印本形式)

研究背景与动机

该论文主要针对当前大语言模型在复杂算法问题求解能力评估不足的问题展开研究。随着LLM在代码生成任务中表现出色,但其在竞争性编程这类高难度、强约束场景下的性能尚未得到系统评估。研究背景基于现有评估多集中于一般性代码生成(如LeetCode),缺乏对ICPC等竞赛级问题的专门评测,且存在数据污染评估偏差等问题。研究动机在于构建一个公平、全面的评估框架(LLM-ProS),以分析LLM在真实竞赛环境中的推理能力、泛化性和效率。

研究问题的具体表述为:

  • LLM在未见过的ICPC问题上表现如何?
  • 不同问题类别对LLM性能有何影响?
  • 导致LLM性能差异的关键因素是什么?
  • 各模型在判决结果分布上有何差异?

论文核心方法和步骤

论文提出了LLM-ProS评估框架,包含四个核心步骤:

  1. 数据收集:从ICPC官网爬取2011–2024年共166道世界总决赛题目,确保与LLM训练数据无重叠(尤其使用2024年新题作为“未见数据”)。
  2. 数据预处理
    • 提取问题组件(题目描述、输入输出格式、样例、约束)。
    • 统一提示词模板,适配不同模型(如为CoT模型添加推理引导)。
    • 文本清洗与标准化,确保数学符号和术语一致性。
  3. 模型测试:选取5个LLM(GPT-4o、Mistral Large、Llama-3.1-405B、o1-mini、o1-preview),在零样本设置下生成代码。
  4. 提交与评估:将生成代码提交至Codeforces Gym平台,获取自动化判决(AC、WA、TLE、RE、CE),并记录运行时间和内存使用。

关键技术点

  • 使用时间划分评估(过去题目 vs. 2024新题)以控制数据污染。
  • 采用热力图分类统计可视化性能趋势。
  • 引入链式思维(CoT)推理优化的对比(如o1系列模型)。

实验结果与结论

主要结果

  1. o1模型显著领先:o1-mini和o1-preview在2011–2023题上最高达到25%准确率(2017年),在2024新题上分别达到15.4%和7.7%,而其他模型(GPT-4o、Mistral Large、Llama-3.1)在所有年份准确率均为0%。
  2. 问题类别影响显著:实现类(Implementation)、图论(Graph Theory)和数学(Math)问题解决率较高,而几何(Geometry)和贪心(Greedy)问题所有模型均表现不佳。
  3. 错误分布分析:o1模型AC率最高(o1-mini: 9.64%),其他模型以编译错误(GPT-4o: 24.7%)和答案错误(WA)为主。
  4. 资源效率:o1模型在保持高准确率的同时,运行时间和内存使用更优。

结论与意义

  • CoT推理与专项训练是提升LLM竞赛性能的关键(如o1系列)。
  • 数据污染会严重高估模型性能,强调使用“干净”基准的重要性。
  • 当前通用LLM(如GPT-4o)在复杂竞赛问题上泛化能力有限,需进一步优化推理架构。
  • LLM-ProS为未来LLM在算法任务上的评估提供了可复现的基准框架,推动更具泛化能力的代码生成模型发展。

局限性:评估依赖Codeforces单一平台,且为零样本测试,未探索交互式优化可能。


http://example.com/posts/54.html
作者
司马吴空
发布于
2026年3月30日
许可协议