SAP-basis相关文档
SAP语言包安装说明
basis学习记录
SAP HANA数据库HA双机架构概念及运维
慢sql查询优化解决方法
SAP 760 客户端安装手册
PO系统日志目录NFS共享
Solution Manager监控配置oracle操作手册
SOLution-Manager-监控配置安装SAP VER环境_李光升
SAP Business One FOR linux 安装教程
SAP 760 GUI 安装访问异常问题分析
SAP Business One FOR HANA 安装
什么是 SAP Business One(SAP B1)
SAP MC/JSmon/Configtool监控配置文档
SAP B1安装文档
PO日志系统磁盘扩容
SAP系统卓创证书更新
新建集团和集团拷贝
SAP HANA自动备份和清理配置操作
HANA slt 同步数据至ORACLE
fico-生产订单的生命周期过程
HANA数据库License申请文档
S4D300client发版至S4D510Cclient改动说明
SAP禁用过期账号
SAP打补丁操作步骤
SUSE 15安装手册
RDS系统恢复演练
suse 磁盘在线扩容操作手册
HANA 性能分析SQL
SAP证书安装操作记录
SAP归档系统配置手册
SAP gui 760客户端安装文档
SAP 调度作业管理制度
新SAP单点windows登录操作手册
新SAP系统mac登录操作手册
AMS系统windows登录手册
AMS系统mac登录SAP手册
HANA磁盘在线扩容-字符方式
2952296-用于数据提供(dpserver)的许多开放内部连接
PO一体机接口卡顿问题分析
PO互备模式
SAP BASIS培训试题
LDAP服务器停掉PO无法启动
SAP用户权限管理
B1重启问题分析ip addr add 10.7.4.52/24 dev eth0
IMM远程管理卡产品学习手册
POSTGre 数据库安装操作
SAP 正式环境COPY到400后需要调整的内容–PO配置
ERP二维码配置生产环境问题
PO系统证书操作手册文档20240815
ABAP基础知识
SAP HANA 内存原理
PO之过期消息的删除
SAP 邮件发送功能配置
用户存在角色却提示无权限的处理方法
hana数据库新建用户及表授权
Linux cached持续增大:原因和解决方法
ProtoReasoning:为大模型推理能力的提升注入新动力
什么是Web Dispatcher
hana数据库的磁盘碎片化整理操作手册
什么是LORA模型
清理HDS数据库中表SXMSCLUP
申请license步骤
国产GLM-4.6编程模型海外“出圈”,成全球开发者新宠儿
HANA数据库版本升级
NVIDIA 推出 Orchestrator\-8B:高效工具和模型选择的强化学习控制器
本文档使用「觅思文档专业版」发布
-
+
首页
NVIDIA 推出 Orchestrator\-8B:高效工具和模型选择的强化学习控制器
NVIDIA 最近推出了一种新方法 ——ToolOrchestra,旨在提升 AI 系统选择合适模型和工具的能力,避免传统的单一大型模型依赖。该方法通过训练一个名为 Orchestrator\-8B 的小型语言模型,作为多工具使用代理的 “大脑”,实现更高效的任务处理。  目前大多数 AI 代理使用单一大型模型,例如 GPT\-5,根据提示选择工具并完成任务。然而,研究发现,这种方法容易导致模型在决策时偏向于使用自身,造成资源浪费。为此,ToolOrchestra 设计了一种专门的控制模型 Orchestrator\-8B,利用强化学习来优化工具选择。 Orchestrator\-8B 是一个具有8亿参数的解码器,仅使用 Transformer 结构,通过微调 Qwen3\-8B 模型而成。其工作流程分为三个主要步骤:首先,模型解析用户指令及可选的自然语言偏好,例如优先考虑低延迟或避免网络搜索;接着,生成推理过程并计划行动;最后,从可用工具中选择,并以统一的 JSON 格式发出工具调用。这一过程会持续进行,直到任务完成或达到50个步骤的上限。 ToolOrchestra 的强化学习设计包括多个奖励机制,以确保任务的高效完成。具体来说,模型的奖励由三个部分组成:任务成功的二元奖励、效率奖励(针对成本和时间)以及用户偏好奖励。这些因素结合起来,帮助优化策略,使 Orchestrator\-8B 在选择和使用工具时更为灵活。 在一系列基准测试中,Orchestrator\-8B 表现优异。例如,在 “人类最后的考试” 中,其准确率达到37\.1%,高于 GPT\-5的35\.1%。在效率方面,Orchestrator\-8B 的平均成本仅为0\.092美元,时间为8\.2分钟,远低于 GPT\-5的0\.302美元和19\.8分钟。这表明,Orchestrator\-8B 在资源利用和任务处理上表现更佳,适合关注效率和成本的团队。 NVIDIA 的 ToolOrchestra 为复合 AI 系统的构建迈出了重要一步,通过训练特定的路由策略,显著提升了任务处理的效率和准确性。
谢志成
2025年12月2日 08:41
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期