Ramp Labs提出多智能体记忆共享新方案，Token消耗最高降低65%

发布时间：2026-04-11

Edge Huiwang quantification 消息，4 月 11 日，AI 基础设施公司 Ramp Labs 发布研究成果「Latent Briefing」，通过直接压缩大模型 KV 缓存实现多智能体系统间的高效记忆共享，在不损失准确率的前提下大幅降低 Token 消耗。在主流多智能体架构中，编排者（Orchestrator）将任务拆解并反复调用工作者（Worker）模型，随着推理链路不断延伸，Token 用量呈指数级膨胀。Latent Briefing 的核心思路是：借助注意力机制识别上下文中真正关键的部分，在表示层直接丢弃冗余信息，而非依赖速度慢的 LLM 摘要或稳定性差的 RAG 检索。在 LongBench v2 基准测试中，该方法表现亮眼：Worker 模型 Token 消耗降低 65%，中等长度文档（32k 至 100k）的 Token 节省中位数达 49%，整体准确率较基线提升约 3 个百分点，而每次压缩的额外耗时仅约 1.7 秒，较原始算法提速约 20 倍。实验以 Claude Sonnet 4 作为编排者、Qwen3-14B 作为工作者模型，覆盖学术论文、法律文书、小说及政府报告等多类文档场景。研究还发现，最优压缩阈值因任务难度和文档长度而异——难题适合激进压缩以过滤投机性推理噪声，长文档则更适合轻度压缩以保留分散的关键信息。----------缘辉旺盾网量化工具温馨提示：数字货币投资有风险，入市需谨慎；本文章不作为投资依据，仅供参考----------交流群：https://t.me/dunwangyuanhuiwang

Edge Huiwang quantification 消息，4 月 11 日，AI 基础设施公司 Ramp Labs 发布研究成果「Latent Briefing」，通过直接压缩大模型 KV 缓存实现多智能体系统间的高效记忆共享，在不损失准确率的前提下大幅降低 Token 消耗。

在主流多智能体架构中，编排者（Orchestrator）将任务拆解并反复调用工作者（Worker）模型，随着推理链路不断延伸，Token 用量呈指数级膨胀。Latent Briefing 的核心思路是：借助注意力机制识别上下文中真正关键的部分，在表示层直接丢弃冗余信息，而非依赖速度慢的 LLM 摘要或稳定性差的 RAG 检索。

在 LongBench v2 基准测试中，该方法表现亮眼：Worker 模型 Token 消耗降低 65%，中等长度文档（32k 至 100k）的 Token 节省中位数达 49%，整体准确率较基线提升约 3 个百分点，而每次压缩的额外耗时仅约 1.7 秒，较原始算法提速约 20 倍。

实验以 Claude Sonnet 4 作为编排者、Qwen3-14B 作为工作者模型，覆盖学术论文、法律文书、小说及政府报告等多类文档场景。研究还发现，最优压缩阈值因任务难度和文档长度而异——难题适合激进压缩以过滤投机性推理噪声，长文档则更适合轻度压缩以保留分散的关键信息。

----------缘辉旺盾网量化工具温馨提示：数字货币投资有风险，入市需谨慎；本文章不作为投资依据，仅供参考 ----------交流群：https://t.me/dunwangyuanhuiwang

上一篇：蔡浩宇旗下AI公司Anuttacon发布首个视频大模型LPM1.0

下一篇：NOM 24小时跌近40%，超14.42亿枚NOM遭「大庄」充入CEX

友情链接 :

缘辉旺官网