最新大模型编程能力对比
国内外大模型编程能力全面对比(2026年6月)一、核心基准测试对比1.1 主流编码基准测试说明
基准测试
测试内容
难度等级
区分度
SWE-bench Verified
真实GitHub仓库Issue修复,需理解代码库、定位问题、生成补丁
⭐⭐⭐⭐⭐
高,当前最权威的工程能力测试
LiveCodeBench
实时更新的竞赛编程题,无污染问题
⭐⭐⭐⭐
高,算法能力黄金标准
HumanEval
164道Python函数补全题
⭐⭐
低,顶级模型已饱和(96%+)
MBPP
974道入门级Python编程题
⭐
极低,仅作入门筛选
HumanEval+
HumanEva
...