起源:::谁来为无子女老人末年兜底作者
斯坦福推出Agent验证框架「LLM-as-a-Verifier」
本项目由斯坦福大学 CS 博士生 Jacky Kwok掌管,,,重要贡献者蕴含伯克利 EECS 博士生 Shulu Li。。通讯作者为Ion Stoica(UC 伯克利教授、Databricks 首创人)、Azalia Mirhoseini(斯坦福教授,,,曾任职于 DeepMind 与 Anthropic)、以及 Marco Pavone(英伟达 AI 与自动驾驶钻研总监)。。
斯坦!、伯克利与英伟达结合提出 Agent 验证框架 LLM-as-a-Verifier。。该步骤是一种通用的验证机制,,,可与肆意 Agent Harness 和模型结合。。
钻研批注,,,通过扩大验证阶段的推算量(scaling verification compute),,,能够显著提升 agent 整体机能,,,并在最有影响力的 AI 编程基准 Terminal-Bench 上超过 GPT-5.5 和 Claude Mythos!!
LLM-as-a-Verifier 在 AI Coding 基准 Terminal-Bench 和 SWE-Bench Verified 上均获得了当前最优(SOTA)机能。。 Transformer 论文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也对该工作进行了转发与关注。。
博客地址:::llm-as-a-verifier.notion.site代码地址:::llm-as-a-verifier.github.io
步骤概述
大无数 Agent Harness 现实上已经「具备」解决问题的能力 。。当我们屡次运行统一个 Agent(例如运行 100 次),,,它往往可能在某一次尝试中天生正确答案。。但问题在于,,,它们无法判断哪一个才是正确的。。这一问题在长时序工作(long-horizon tasks)中尤为严重。。
LLM-as-a-Verifier 通过 scaling评分 token 的细粒度(score granularity)、屡次评估(repeated verification)以及评价尺度的分化(criteria decomposition),,,显著提升了验证能力,,,并进一步提高了下游工作的成功率。。此外,,,团队发现随着评分 token 细粒度的提升,,,正负样本之间的得分分辨度会进一步拉大。。
主题问题:::LLM-as-a-Judge 的局限性
尺度的 LLM-as-a-Judge 通过提醒模型输出一个评分了局(例如,,,1 到 8 之间的分数),,,并选择概率最高的评分作为最终的离散分数。。
然而,,,这种步骤往往存在评分粒度过于粗糙的问题。。在比力长时序 agent 轨迹(trajectories )时,,,LLM-as-a-Judge 通;嵛制绲墓旒7峙湟谎姆质ɡ纾,,两条轨迹都被评为 4 分),,,从而导致平局,,,无法有效分辨它们。。
这种粗粒度的评分机制在 Terminal-Bench 上出现了27%的平局情况,,,限度了评价的精确性和分辨能力。。
LLM-as-a-Verifier: 从判分到验证的范式转变
从界说上讲,,,judge(裁判者)是对整体情况形成总体判断并给出结论的人;而 verifier(验证者)则是对具体事项进行真实及正确性核验的人,,,因而必要更详细、更具体的评估。。
为此,,,团队提出了 LLM-as-a-Verifier。。它通过扩大以下三个维度来提供细粒度反。。::
反复验证的次数(repeated verifications)评分 token 的粒度(granularity of score tokens)评估尺度的分化(decomposition of evaluation criteria)
LLM-as-a-Verifier 将轨迹的嘉奖暗示为:::
在选择最佳轨迹时,,,团队选取循环赛(round-robin tournament):::对每一对候选轨迹 (i, j), 验证器城市利用上述公式推算其 reward。。嘉奖更高的轨5玫匠晒Γ,,而在全数比力中胜场数最多的轨迹,,,将被选为最终了局。。
尝试了局
1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等复杂的长时序基准工作中,,,LLM-as-a-Verifier 的阐发全面超过了前沿模型并均获得了当前最优(SOTA)机能。。所有尝试了局均起源于官方排行榜。。
2.LLM-as-a-Verifier 可能在分歧的 Agent Harness 框架中实现无缝集成,,,其通用性验证于以下三个基准工作:::
ForgeCode:::验证正确率提升至 86.4%Terminus-Kira:::正确率提升至 79.4%Terminus 2:::正确率增长至 71.2%
这批注,,,无论针对何种 Agent Harness 或模型,,,该验证步骤皆可高效兼容并提升机能。。
3.LLM-as-a-Verifier 在验证正确率和解除平局方面全面当先于传统的 LLM-as-a-Judge。。即便在增长反复验证次数的情况下(如 k = 16),,,Verifier 步骤依然维持了至少 7% 的验证正确率优势。。此外,,,它齐全解除了平局景象。。
4.试验了局批注,,,增长评分 token 的粒度(granularity)以及提高反复验证次数(repeated verifications)均显著提高验证正确率。。此外,,,在评分 token 维度的细化分级(1→20)中,,,量化误差得到了极大降低,,,从而更靠近真实嘉奖。。
5.LLM-as-a-Verifier 烧毁传统的单一评分机制,,,选取将轨迹验证解构为三个可组合的评估尺度:::
规范合规性 (Specification):::轨迹是否切合所有工作要求(蹊径、定名等);输出体式 (Output Format):::验证输出的体式是否切合预期了局;谬误检测 (Error Checking):::轨迹中是否存在显著的谬误信号。。
验证推算作为新的扩大维度
「LLM-as-a-Verifier」是一种通用验证机制,,,可能显著提升 Agent 的整体机能,,,并在多个 AI 编程基准上获切当前最优(SOTA)阐发,,,超过了其他前沿模型如 Claude Mythos。。
相比传统的「LLM-as-a-Judge」步骤,,,该框架利用更详细的评分粒度、反复验证,,,以及评估尺度分化,,,实现更高的验证正确率和更精确的分辨能力,,,解除了评分平局景象。。
尝试了局批注,,,它可能宽泛适配分歧的 Agent Harness 和模型,,,提高多种基准工作中的正确率,,,同时通过评分机制的细化缓解量化误差,,,使验证了局更靠近真实嘉奖。。
LLM-as-a-Verifier 不仅提升了 Agent 机能,,,还显著加强了模型在长时序工作中的安全性和不变性。。
@张志俐:::日本fart排气网,,,腾讯张军:::微信访客已焊死 不会开发@白冠志:::专家:::菲律宾政坛内斗进入白热化
@桂家玮:::泽连斯基称乌军成功击沉一艘俄舰艇
热点排行
- 1 成w人w黄w片app
- 2 无码专区无码专区观看
- 3 偷拍视频网
- 4 性巴克成人免费入口视频下载
- 5 男生 男生 里片
- 6 黄网站app
- 7 欧美精品﹣ iGAO 视频网_为爱搞点激情
- 8 少妇福利
- 9 董卿性做爰A片