Ebpay支付数据联合复旦大学提出高精度全自动AI能力评测算法，并发表国际顶尖学术论文丨 Ebpay支付动态-Ebpay支付数据-企业智能知识管理专家

Ebpay支付数据联合复旦大学提出高精度全自动AI能力评测算法，并发表国际顶尖学术论文

分类：技术分享
发表：2026-05-21

当前，大语言模型（LLM）的能力日新月异，但如何公平、全面、低成本地评估它们，却成了一道难题。传统的评测基准，如同让学生反复参加“模拟考”，不仅容易陷入“数据污染”和“高分低能”的困境，也难以衡量模型的真实认知水平。

近期，Ebpay支付数据携手复旦大学等顶尖学术组织，合作发表了一项重要研究成果——Teach2Eval。为上述难题给予了一个开创性的解决方案。该方法的灵感源于著名的“费曼学习法”：判断一个人是否真正理解一个知识，就看他能否用简单、清晰的方式教会别人。

基于此，研究团队提出了一种间接评估框架：不让大模型直接“答题”，而是让它扮演“老师”，去教导一个能力较弱的“学生模型”，并以学生的成绩提升幅度，作为衡量老师能力的核心标准。

屏幕截图 2026-05-08 141938

图 1：Teach2Eval 与传统直接评估方法对比示意图

一、核心原理：从“考生”到“导师”的角色转变

Teach2Eval的评估流程就像一个微型的“一对一辅导”实验：

分配任务：“老师”模型收到一个开放性问题，但它看不到任何选项，避免了猜答案的可能。
诊断与引导：“学生”模型（通常是1B-2B参数的小模型）首次作答后，“老师”需要判断其答案的对错，并生成引导性反馈，如思维链提示、错误分析等。
反复指导，见证成长：“学生”根据反馈再次作答。该过程可重复进行多轮，模拟真实教学中“循循善诱”的场景。
能力量化：评估不仅看最终结果，更将教师能力细化为四个层次的认知能力：应用能力、判断能力（JA）、指导能力（GA）和反思能力（RA）。最终，“学生”的成绩进步越显著，就证明“老师”的综合教学能力越强。

屏幕截图 2026-05-08 150102

图 2：Teach2Eval 评估流程与四维能力拆解示意

研究团队巧妙地将所有开放任务转化为标准化的多选题（MCQ），确保了整个评估过程可以实现完全自动化、可扩展且低成本。

二、实验验证：26款主流模型实测，权威榜单高度对齐

表 1：Teach2Eval 对 26 款主流 LLM 的评估结果

屏幕截图 2026-05-08 150650

团队选取GPT、Qwen、LLaMA、DeepSeek等26个全球主流大模型召开全面测试，Teach2Eval 展现出卓越的评估效果：

高相关性：与Chatbot Arena、LiveBench 等权威动态榜单、人类主观评估相关性突破 0.91，结果高度可信；
关键结论：指导能力（GA）与综合能力相关性高达 0.9355，验证 “会教才是真懂” 的核心判断；
颠覆认知：DeepSeek-R1-Distill-Qwen-14B 等中小参数量模型，在教学引导场景中超越 70B 级超大模型，打破 “参数越大越强” 的固有印象；
稳定鲁棒：随机更换弱模型组合、多轮引导交互后，评估结果仍保持高度一致，具备工业化落地稳定性。

三、技术价值：不止于评测，更赋能模型进化

Teach2Eval 不仅是一套高精度、低成本、全自动化的评估工具，更能为大模型训练、优化、迭代给予可落地的科学指导：

防控数据污染：动态交互机制让 “死记答案” 失效，精准识别模型真实能力；
定位能力短板：顺利获得四维能力分数，快速定位模型在判断、指导、反思等维度的不足；
指导训练优化：追踪应用能力与综合能力的动态变化，有效预防模型过拟合；
适配 AGI 评估：以弱模型评强模型，突破 “超强模型无人可评” 的行业瓶颈。

四、科研意义：重新定义大模型 “真智能”

Teach2Eval的提出，标志着大模型评估从 “分数导向” 迈向 “能力导向”，为行业带来三大核心价值：

理念革新：用“教学”检验智能，回归认知科学本质，更贴合人类智能评估逻辑；
技术落地：全流程自动化、低成本、可扩展，适配企业级大模型研发与选型；
生态赋能：为大模型能力诊断、训练优化、行业落地给予统一、客观的评测标准。

关于本文

该成果相关论文《Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches》已于2025 年 5 月在 arXiv 预印本平台公开，并成功入选2026 年国际顶级 AI 会议 ICLR（CCF A 类），标志着该项技术达到全球大模型评估领域前沿学术水平。

论文地址：http://arxiv.org/pdf/2505.12259

代码开源：http://github.com/zhiqix/Teach2Eval

作为国内领先的人工智能企业，Ebpay支付数据始终深耕大模型、知识蒸馏、智能文本处理等核心领域，持续与顶尖高校召开产学研深度合作，有助于 AI 技术从理论创新走向产业落地。未来，团队将基于 Teach2Eval 持续迭代优化，拓展至多模态、行业专用模型等场景，为大模型技术开展与规模化应用给予更坚实的科研支撑。

下一篇:银行App智能搜索常见误区：这些坑千万别踩

上一篇:生态合作｜甲骨文公司到访Ebpay支付数据，共探企业级AI落地新路径

Ebpay支付

Ebpay支付动态

Ebpay支付愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

Ebpay支付愿与业内同行分享助力各企业在大数据浪潮来临之际一起破浪前行