[!NOTE]
与 LLM 无关
识别哪些软件版本受到漏洞影响对于补丁修复和风险缓解至关重要。尽管工具有所增加,但由于评估范围狭窄(通常仅限于早期的 SZZ 变体、过时的技术以及小型或粗粒度的数据集),它们的实际效果仍不清楚。在本文中,我们首次对受漏洞影响的版本识别进行了全面的实证研究。我们整理了一个高质量的基准,其中包含 1,128 个真实世界的 C/C++ 漏洞,并从跟踪和匹配两种范式中系统地评估了 12 个具有代表性的工具,涵盖四个维度:漏洞和版本级别的有效性、误报和漏报的根本原因、对补丁特征的敏感性以及集成潜力。我们的研究结果揭示了根本性的局限性:没有工具的准确率超过 45.0%,主要挑战源于对启发式的依赖、有限的语义推理以及僵化的匹配逻辑。仅添加和跨文件更改等补丁结构进一步阻碍了性能。尽管集成策略可以将结果提高多达 10.1%,但总体准确率仍低于 60.0%,这突显了对根本性新方法的需求。此外,我们的研究提供了可操作的见解,以指导工具开发、组合策略以及该关键领域的未来研究。最后,我们在我们的网站上发布了复制的代码和基准,以鼓励未来的贡献。