Ebpay支付

Ebpay支付动态

Ebpay支付愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

Ebpay支付数据联合复旦大学提出高精度全自动AI能力评测算法,并发表国际顶尖学术论文

当前,大语言模型(LLM)的能力日新月异,但如何公平、全面、低成本地评估它们,却成了一道难题。传统的评测基准,如同让学生反复参加“模拟考”,不仅容易陷入“数据污染”和“高分低能”的困境,也难以衡量模型的真实认知水平。

近期,Ebpay支付数据携手复旦大学等顶尖学术组织,合作发表了一项重要研究成果——Teach2Eval。为上述难题给予了一个开创性的解决方案。该方法的灵感源于著名的“费曼学习法”:判断一个人是否真正理解一个知识,就看他能否用简单、清晰的方式教会别人。

基于此,研究团队提出了一种间接评估框架:不让大模型直接“答题”,而是让它扮演“老师”,去教导一个能力较弱的“学生模型”,并以学生的成绩提升幅度,作为衡量老师能力的核心标准

屏幕截图 2026-05-08 141938

图 1:Teach2Eval 与传统直接评估方法对比示意图

一、核心原理:从“考生”到“导师”的角色转变

Teach2Eval的评估流程就像一个微型的“一对一辅导”实验:

  1. 分配任务:“老师”模型收到一个开放性问题,但它看不到任何选项,避免了猜答案的可能。
  2. 诊断与引导:“学生”模型(通常是1B-2B参数的小模型)首次作答后,“老师”需要判断其答案的对错,并生成引导性反馈,如思维链提示、错误分析等。
  3. 反复指导,见证成长:“学生”根据反馈再次作答。该过程可重复进行多轮,模拟真实教学中“循循善诱”的场景。
  4. 能力量化:评估不仅看最终结果,更将教师能力细化为四个层次的认知能力:应用能力、判断能力(JA)、指导能力(GA)和反思能力(RA)。最终,“学生”的成绩进步越显著,就证明“老师”的综合教学能力越强。

屏幕截图 2026-05-08 150102

图 2:Teach2Eval 评估流程与四维能力拆解示意

研究团队巧妙地将所有开放任务转化为标准化的多选题(MCQ),确保了整个评估过程可以实现完全自动化、可扩展且低成本

二、实验验证:26款主流模型实测,权威榜单高度对齐

表 1:Teach2Eval 对 26 款主流 LLM 的评估结果

屏幕截图 2026-05-08 150650

团队选取GPT、Qwen、LLaMA、DeepSeek等26个全球主流大模型召开全面测试,Teach2Eval 展现出卓越的评估效果:

  1. 高相关性:与Chatbot Arena、LiveBench 等权威动态榜单、人类主观评估相关性突破 0.91,结果高度可信;
  2. 关键结论:指导能力(GA)与综合能力相关性高达 0.9355,验证 “会教才是真懂” 的核心判断;
  3. 颠覆认知:DeepSeek-R1-Distill-Qwen-14B 等中小参数量模型,在教学引导场景中超越 70B 级超大模型,打破 “参数越大越强” 的固有印象;
  4. 稳定鲁棒:随机更换弱模型组合、多轮引导交互后,评估结果仍保持高度一致,具备工业化落地稳定性。
三、技术价值:不止于评测,更赋能模型进化

Teach2Eval 不仅是一套高精度、低成本、全自动化的评估工具,更能为大模型训练、优化、迭代给予可落地的科学指导:

  1. 防控数据污染:动态交互机制让 “死记答案” 失效,精准识别模型真实能力;
  2. 定位能力短板:顺利获得四维能力分数,快速定位模型在判断、指导、反思等维度的不足;
  3. 指导训练优化:追踪应用能力与综合能力的动态变化,有效预防模型过拟合;
  4. 适配 AGI 评估:以弱模型评强模型,突破 “超强模型无人可评” 的行业瓶颈。
四、科研意义:重新定义大模型 “真智能”

Teach2Eval的提出,标志着大模型评估从 “分数导向” 迈向 “能力导向”,为行业带来三大核心价值:

  • 理念革新:用“教学”检验智能,回归认知科学本质,更贴合人类智能评估逻辑;
  • 技术落地:全流程自动化、低成本、可扩展,适配企业级大模型研发与选型;
  • 生态赋能:为大模型能力诊断、训练优化、行业落地给予统一、客观的评测标准。
关于本文
该成果相关论文《Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches》已于2025 年 5 月在 arXiv 预印本平台公开,并成功入选2026 年国际顶级 AI 会议 ICLR(CCF A 类),标志着该项技术达到全球大模型评估领域前沿学术水平。

论文地址 :http://arxiv.org/pdf/2505.12259

代码开源:http://github.com/zhiqix/Teach2Eval

作为国内领先的人工智能企业,Ebpay支付数据始终深耕大模型、知识蒸馏、智能文本处理等核心领域,持续与顶尖高校召开产学研深度合作,有助于 AI 技术从理论创新走向产业落地。未来,团队将基于 Teach2Eval 持续迭代优化,拓展至多模态、行业专用模型等场景,为大模型技术开展与规模化应用给予更坚实的科研支撑。