买球·(中国大陆)APP官方网站

买球·(中国大陆)APP官方网站

新闻动态 你的位置:买球·(中国大陆)APP官方网站 > 新闻动态 > 买球·(中国大陆)APP官方网站以及WorfEval——一套系统性评估公约-买球·(中国大陆)APP官方网站

买球·(中国大陆)APP官方网站以及WorfEval——一套系统性评估公约-买球·(中国大陆)APP官方网站

发布日期:2025-02-28 05:08    点击次数:55

买球·(中国大陆)APP官方网站以及WorfEval——一套系统性评估公约-买球·(中国大陆)APP官方网站

大模子智能体正在速即发展买球·(中国大陆)APP官方网站,才调已不再局限于 API 调用。

诸如 OpenAI 的 Operator 和 Anthropic 的 Computer Use 等,大要像东说念主类雷同告成与界面交互,扩充复杂操作。

在处理这类复杂任务的过程中,大模子智能体将问题领悟为可扩充的使命流(Workflow)是枢纽的一步。然则,这一中枢才调当今枯竭完善的评测基准。

现存的数据集和评估框架存在显著局限性:要么仅关怀谋略任务的端到端性能,要么在场景灭绝范围、使命流结构的复杂性以及评估步伐的全面性上存在不足。完善的使命流评测基准关于鼓励大模子智能体在实在场景中的应用和性能普及至关不毛。

为惩办上述问题,浙大通义合资发布WorfBench——一个涵盖多场景和复杂图结构使命流的和解基准,以及WorfEval——一套系统性评估公约,通过子序列和子图匹配算法精确量化大模子生成使命流的才调。这一议论不仅填补了现存评估体系的空缺,还为以前大模子智能体在复杂任务中的应用提供了不毛的参考。

该使命已被东说念主工智能顶级会议 ICLR 2025 托付。

WorfBench 期骗 GPT 自动化构建多场景任务,包括 problem solving、function calling、embodied planning 和 open-ended planning 等,生成了包含 18k 纯熟样本、2146 测试样本和 723 个 OOD 的评测数据集。作家将使命流建模为有向无环图(DAG),以更精确地暗示试验天下中的复杂串行或并行智能体使命流。

为了确保数据质料,作家引入了节点链算作中间结构,并汲取拓扑排序(Topological Sorting)算法对图结构进行质料过滤,并在测试集上进行东说念主工考证。

WorfEval 则通过子序列和子图匹配算法,离别从链结构和图结构两个维度对大模子生成的使命流进行量化评估,从而精确权衡模子的线性谋略和图谋略才调。

基准评测截至

作家在 WorfBench 上对 18 种不同范围的主流大模子进行了全面评估,包括闭源模子(如 O1、GPT-4、Claude-3.5)和开源模子(如 Llama 系列、Qwen 系列等)。实验截至透露,与线性结构比拟,模子在图结构使命流展望上的才调远未达到试验需求,即使是性能超卓的 GPT-4,其图结构使命流的平均性能也仅为 52.47%。

此外,作家还对两个开源模子进行了纯熟,并在 OOD 任务上评估其泛化才调。截至标明,尽管在纯熟集上推崇出色,但在未见过的任务上,模子的泛化才调仍有待提高。这标明,仅通过数据拟合当今仍难以已矣结构化使命流谋略才调的有用学习。

使命流生要素析

通过对实验截至的潜入分析,作家发现大模子在使命流生成中存在权贵的线性谋略与图谋略才调差距,且图谋略才调与模子范围并非王人备正关联。举例,部分 7B 模子在某些任务上超过了 13B 模子,这可能与模子纯熟数据的范围和质料意料。

此外,作家还发现,即使提供标签节点链以简化图结构展望任务,模子的图谋略性能仍不睬想,这标明图谋略的复杂性在于对任务依赖关系的贯串。

进一步的相当分析透露,大模子在使命流生成中的典型相当主要聚拢在职务领悟的粒度、任务描摹的明确性、图结构的正确性以及输出体式的表大肆四个方面。这些相当大多源于模子对环境学问的枯竭。

因此,以前的议论地方可能包括优化指示计策、汲取多智能体架构,以及将天下学问或天下模子更潜入地融入大模子中,以普及其对试验天下的贯串才调。

使命流学问增强智能体

作家筹商了使命流在智能体谋略中的不毛作用。议论发现,使命流不仅不错算作一种进程先验学问告成相通智能体的谋略过程,匡助其在复杂任务中更高效地扩充,还不错算作链式念念考(Chain-of-Thought, CoT)的增强本事,通过为智能体提供更关联的 API 遴荐,削弱其在多步任务中的包袱。

此外,使命流的图结构特质大要已矣并行任务扩充,权贵减少推理时刻,同期减少智能体在谋略过程中的门径数,普及任务完奏效果。这些截至标明,使命流不仅是勾通任务与具体扩充动作的桥梁,还能权贵普及智能体在复杂任务中的推崇和效果。

论文无间 :   https://arxiv.org/abs/2410.07869  

代码无间 :   https://github.com/zjunlp/WorfBench

—  完  —

投稿请使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实质‍

附上论文 / 表情主页无间,以及意料表情哦

咱们会(尽量)实时修起你

一键关怀 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「堤防心」

接待在指摘区留住你的主义!买球·(中国大陆)APP官方网站