当前,大语言模型(LLM)的能力日新月异,但如何公平、全面、低成本地评估它们,却成了一道难题。传统的评测基准,如同让学生反复参加“模拟考”,不仅容易陷入“数据污染”和“高分低能”的困境,也难以衡量模型的真实认知水平。
近期,Ebpay支付数据携手复旦大学等顶尖学术组织,合作发表了一项重要研究成果——Teach2Eval。为上述难题给予了一个开创性的解决方案。该方法的灵感源于著名的“费曼学习法”:判断一个人是否真正理解一个知识,就看他能否用简单、清晰的方式教会别人。
基于此,研究团队提出了一种间接评估框架:不让大模型直接“答题”,而是让它扮演“老师”,去教导一个能力较弱的“学生模型”,并以学生的成绩提升幅度,作为衡量老师能力的核心标准。

图 1:Teach2Eval 与传统直接评估方法对比示意图
Teach2Eval的评估流程就像一个微型的“一对一辅导”实验:
- 分配任务:“老师”模型收到一个开放性问题,但它看不到任何选项,避免了猜答案的可能。
- 诊断与引导:“学生”模型(通常是1B-2B参数的小模型)首次作答后,“老师”需要判断其答案的对错,并生成引导性反馈,如思维链提示、错误分析等。
- 反复指导,见证成长:“学生”根据反馈再次作答。该过程可重复进行多轮,模拟真实教学中“循循善诱”的场景。
- 能力量化:评估不仅看最终结果,更将教师能力细化为四个层次的认知能力:应用能力、判断能力(JA)、指导能力(GA)和反思能力(RA)。最终,“学生”的成绩进步越显著,就证明“老师”的综合教学能力越强。

图 2:Teach2Eval 评估流程与四维能力拆解示意
研究团队巧妙地将所有开放任务转化为标准化的多选题(MCQ),确保了整个评估过程可以实现完全自动化、可扩展且低成本。
表 1:Teach2Eval 对 26 款主流 LLM 的评估结果

团队选取GPT、Qwen、LLaMA、DeepSeek等26个全球主流大模型召开全面测试,Teach2Eval 展现出卓越的评估效果:
- 高相关性:与Chatbot Arena、LiveBench 等权威动态榜单、人类主观评估相关性突破 0.91,结果高度可信;
- 关键结论:指导能力(GA)与综合能力相关性高达 0.9355,验证 “会教才是真懂” 的核心判断;
- 颠覆认知:DeepSeek-R1-Distill-Qwen-14B 等中小参数量模型,在教学引导场景中超越 70B 级超大模型,打破 “参数越大越强” 的固有印象;
- 稳定鲁棒:随机更换弱模型组合、多轮引导交互后,评估结果仍保持高度一致,具备工业化落地稳定性。
Teach2Eval 不仅是一套高精度、低成本、全自动化的评估工具,更能为大模型训练、优化、迭代给予可落地的科学指导:
- 防控数据污染:动态交互机制让 “死记答案” 失效,精准识别模型真实能力;
- 定位能力短板:顺利获得四维能力分数,快速定位模型在判断、指导、反思等维度的不足;
- 指导训练优化:追踪应用能力与综合能力的动态变化,有效预防模型过拟合;
- 适配 AGI 评估:以弱模型评强模型,突破 “超强模型无人可评” 的行业瓶颈。
Teach2Eval的提出,标志着大模型评估从 “分数导向” 迈向 “能力导向”,为行业带来三大核心价值:
- 理念革新:用“教学”检验智能,回归认知科学本质,更贴合人类智能评估逻辑;
- 技术落地:全流程自动化、低成本、可扩展,适配企业级大模型研发与选型;
- 生态赋能:为大模型能力诊断、训练优化、行业落地给予统一、客观的评测标准。
论文地址 :http://arxiv.org/pdf/2505.12259
代码开源:http://github.com/zhiqix/Teach2Eval
作为国内领先的人工智能企业,Ebpay支付数据始终深耕大模型、知识蒸馏、智能文本处理等核心领域,持续与顶尖高校召开产学研深度合作,有助于 AI 技术从理论创新走向产业落地。未来,团队将基于 Teach2Eval 持续迭代优化,拓展至多模态、行业专用模型等场景,为大模型技术开展与规模化应用给予更坚实的科研支撑。
