4月10日,字节跳(tiao)动(dong)豆包大模型团队正式开源首个多语言类(lei) SWE 数据集——Multi-SWE-bench,可用于评估和提升大模型“自动(dong)修 Bug”能力。在 SWE-bench 基础(chu)上,Multi-SWE-bench 首次覆盖 Python 之外的(de) 7 种(zhong)主流编程语言,是真正面向(xiang)“全栈(zhan)工程”的(de)评测基准。其数据均来自 GitHub issue,历时近一年(nian)构(gou)建,以尽可能准确测评和提高大模型高阶编程智能水平。