zbo智博1919com

颁布于2026-05-14 20:04:49来自安卓免费版 v7.930.5330.667590 ·

关注

起源：孙颖莎新鲜合照作者：洪敬仁

握别天价账单：端云协同与影象革命，，让 Agent 握别「烧钱时期」丨 GAIR Live 029

“当 Agent 不再是昂贵的尝试品，，而是像水和电一样的基础设施时，，真正的 AI 时期才算真正来临。”

作者丨岑峰

2026 年，，大模型行业的叙事中心正在经历一场疾苦但必然的位移：从追赶参数规模的“算力较量”，，转向追求工作落地的“工程得救”。在这场位移中，，AI Agent无疑是最被寄托厚望的终极状态，，但它正面对一堵名为“Token 焦虑”的围墙。

为什么 Agent 的遍及如此之难？？由于我们正处于一种极其低效的出产模式中：为了让 Agent 维持对话的连贯性，，系统不得不反复加载数万字的高低文；；；一次单一的工作调度，，往往陪伴着不成预测的高昂账单；；；而数据隐衷在端与云的频仍传输中，，更是变得风雨飘摇。

Agent 的遍及，，正困在安全、成本与智能的“不成能三角”中。

但这到底是模型推理的硬性支出，，还是系统基建效能低下的隐形成本？？为了拆解这一性质命题，，雷峰网进行了“从 Token 焦虑到影象革命”主题的GAIR Live线上圆桌。论坛由雷峰网岑峰主持，，特邀：

李志宇影象张量 MemTensor 结合首创人兼 CTO；；；

闫宇坤 Qiyuan Lab 副钻研员清华大学 THUNLP 尝试室客座钻研员

两位专家，，通过圆桌会商，，揭示了智能体基建若何通过“空间分流”与“功夫治理”，，重构 AI Agent 的成本价值秩序：闫宇坤辅导的 EdgeClaw 试图通过“端云协同”的物理分级，，从架构源头堵截无效 Token 的亏损；；；而李志宇掌舵的 MemTensor 则通过“影象工程”，，在既有架构下通过精密化的状态治理榨取极限效能。

从“谈天框”到“工作操作系统”的范式跃迁

会商的主题共识在于：我们正处于从“对话模型”向“工作执行系统”逾越的关键期。

岁首 OpenClaw的爆红，，性质上是全球开发者对“智能体操作系统”雏形的集体狂欢，，但狂欢之后是繁重的成本账单。闫宇坤指出，，目前的 Agent 依然处于“蒸汽机时期”，，虽能拉动出产力磨盘，，却由于频仍加载布景信息产生了巨大的资源浪费。“有时一句单一的‘你好’，，可能由于反复加载布景信息而亏损五六万 Token。”

这种低效直接导致了贸易闭环的断裂。当 Agent 想要具备真正的“出产力”，，它必须从单一工作执行向跨领域合作跃迁。而这种跃迁的前提，，是必须解决安全、成本与复杂度这三座大山。

空间破局：端云协同与隐衷物理分级

针对“Token 焦虑”，，闫宇坤代表的 EdgeClaw 给出了空间维度的答案：端云协同，，从架构源头堵截无效损耗。

EdgeClaw 提出了一套“安全高效并行龙虾养殖技术”，，其主题逻辑是将端侧界说为“小我秘书”，，掌管隐衷隔离与日常处置；；；将云侧界说为“行业专家”，，掌管处置高难度、非敏感的复杂逻辑。

EdgeClaw设置了三级隐衷分级路由，，通过将工作分为“公共级（S1）”、“脱敏级（S2）”和“本地级（S3）”，，Agent 可能自主决定数据的流向。这不仅锁定了安全的下限，，更重要的是，，它通过在端侧预处置、脱敏和精简，，大幅削减了发往云端的“废料 Token”。

闫宇坤算了一笔极具冲击力的财政账：一台高机能端侧显卡的采购成本，，仅相当于高频挪用三四个月云端顶级 API 的用度。这意味着，，本地硬件正在从“改观用度”变为“固定资产”。一旦工作迁徙至本地，，边际成本趋近于零。这种财政结构的重构，，将彻底引发 Agent 在垂直场景下的真实潜能，，让用户不再由于“不安账单”而对 AI 畏手畏脚。

功夫治理：从“提醒词工程”到“影象工程”

若是说端云协同解决了“在哪里推算”的问题，，李志宇掌舵的 MemTensor 则解决了“若何有效记住”的问题：将行业视野从空间转向功夫，，从暴力堆砌高低文转向精密化的影象分层。

李志宇提出了一个直击性质的概念：“在 Agent 的账单里，，回顾比记住更烧钱。”

从前，，行业普遍迷信“超长高低文（Long Context）”，，以为 128K 甚至 1M 的窗口能解决所有问题。但暴力堆砌高低文的后果是成本的指数级爆炸。MemTensor 提倡的“影象工程”，，强调对影象进行分层治理：

明文影象（Textual Memory）：急剧写入，，但读取成本高；；；

参数化影象（Parametric Memory）：通过训练将知识内化，，读取极快但写入价值大；；；

激活影象（KV Cache 治理）：优化推算中央态，，提升响应速度。

为了匹敌高频、反复加载带来的账单爆炸，，MemTensor 引入了操作系统治理内存的逻辑。通过“Agentic 抽取”模式，，系统不再是被动地存储文本片段，，而是自动鉴别信息的完整性。

例如，，当用户提到“老处所”时，，系统会在写入阶段就实现溯源和补全。这种精准调度能力，，能将正本必要召回的 10K 高低文压缩至 6K 的精准片段，，从而在不损耗智能的前提下实现成本的极限下探。

价值重构：影象作为将来的“数字资产中心”

圆桌另一个深刻共识是：影象治理不仅是降本增效的伎俩，，更是Agent时期将来 AI 贸易模式的基石。

李志宇提出了一个颠覆性的愿景：“影象市。∕emory Store）”：在持久交互中，，一个 Agent 吸收了大量专业领域的思辨逻辑和专家经验，，这些被参数化、结构化的影象包，，自身就是极具贸易价值的资产。当影象能够被脱敏、打包并上架，，用户订阅的将不再是一个冷冰冰的通用模型，，而是一段被内化的智慧，，也进一步将影象从成本中心彻底转变为价值中心。

闫宇坤则补充了“智能自演化”的概念。本地模型由于占有私罕见据和持续交互，，会自觉进行“蒸馏”和“对齐”，，这种“越用越聪明、越用越便宜”的成长性，，是云端通用模型无法提供的主题护城河。

迈向“智能体力资源治理”时期

2026 年已近三分之一，，Token 焦虑的破局点已经爽朗：破局的关键不在于期待大模型单价的降落，，而在于系统工程的全面优化。

将来的社会将进入“智能体力资源治理”的时期。就像我们要对人力资源进行合理配置一样，，将来我们也必要凭据工作的难度、隐衷等级和成本敏感度，，在散布式节点中合理分配智能资源。

当 Agent 不再是昂贵的尝试品，，而是像水和电一样四处可得、成本可控的基础设施时，，真正的 AI 时期才算真正来临。

以下是这次圆桌会商的杰出分享，，AI 科技评论进行了不改原意的编纂整顿：

Token 焦虑的本原：AI Agent落地的生死线

岑峰：各位嘉宾、伴侣，，晚上好；；；队斡胗衫追逋靼斓 GAIR Live 线上圆桌。

今年以来，，AI Agent 领域经历了一场大起大落。从岁首OpenClaw（俗称“龙虾”）引爆开发者社区，，到近期监管层面关注智能体的数据安全，，市场感情在狂热与焦虑间反复。固然智能体在挪用工具、处置复杂事务上的效能令人惊叹，，但随之而来的高昂API 账单却成为其从“尝试室玩具”走向“出产力工具”的最大阻碍。

究其原因，，智能体为了维持对话的连贯性与个性化，，往往必要反复加载数以万计的高低文 Token。这种低效的“影象”方式导致了严重的“Token焦虑”。今天我们想深挖一个性质命题：这些烧掉的资源到底是模型推理的硬性支出，，还是系统基建效能低下的隐形成本？？在安全、成本与智能这三者组成的“不成能三角”中，，我们是否只能三选二？？

为此，，我们约请了两位拥有代表性的专家，，从端云协同与影象治理两个视角，，共同拆解这一难题。

接下来，，有请两位专家单一介绍自己的有关工作，，以及对Token焦虑和技术破局的理解。

闫宇坤：感激岑教员。在深刻探求之前，，我们必要审视大模型状态的演进：我们正从单纯的“对话式模型”转向“专业智能体系统”，，即从单一的互换转向特定的工作执行。

OpenClaw 及类似产品的出现，，标志取“智能体操作系统”的诞生。它们实现了从单一工作执行向矫捷能力定制的逾越。然而，，目前的 OpenClaw固然展示了机械人节制、生物尝试等炫酷场景，，其性质仍依赖于人为定制的Skill。它目前的处境就像汽车刚发现时的样子——虽不华丽且故障频发，，但它预示着一个新时期的到来。要让智能体真正遍及，，必须解决三个主题痛点：安全保险、使用成本与工作复杂度。

以 OpenClaw 为例，，如开发者 API Key 泄露隐衷安全问题频出，，且运行成本极高。有时一句单一的“你好”可能由于反复加载布景信息而亏损五六万Token，，此外，，目前无数智能体仅能处置单一工作，，尚无法实现跨领域的复杂合作。

针对这些问题，， EdgeClaw选取了端云协同范式。我们将这种模式戏称为“安全高效并行龙虾养殖技术”。

在zbo智博1919com架构中，，端侧模型被界说为“小我助理”的“秘书”角色，，它不必要极强的逻辑推理能力，，但必须深度理解用户行为和偏好。端侧是用户的安全下限，，掌管隐衷隔离；；；云侧则是“行业专家”，，掌管机能上限。它部署千亿级参数模型和专业工具，，但与用户隐衷物理隔离。

这就好比家庭医生与专科医生的合作：小病小痛由端侧医生直接开药解决；；；遇到疑难杂症，，端侧医生掌管整顿病历、剔除敏感信息，，再一次性提交给云侧专家。这种方式既保障了隐衷，，又通过削减冗余交互降低了Token 成本。

别的，，EdgeClaw 引入了主题的“模型路由”机制，，凭据工作的隐衷敏感度进行分级处置，，界说数据安全天堑：

S1 级（公共级）：无任何隐衷风险。如进行公开信息调研，，工作直接由云端模型执行。

S2 级（脱敏级）：涉及部门隐衷。如代码审查工作中蕴含 API Key，，先由端侧模型鉴别并隐去敏感字段，，再将脱敏后的数据发往云端。

S3 级（本地级）：高度敏感工作。隐衷信息自身即是工作主题，，脱敏后无法执行，，此类工作强制在端侧本地运行。

除了安全分级，，我们还引入了“项目影象”机制。分歧于传统的功夫轴影象，，它按项目聚合信息，，有效预防多工作并行的影象混合。此外，，系统内置“性价比路由”，，凭据分歧模型的Token 单价和工作难度，，自动匹配最优执行蹊径。实测显示，，在图文内容创作等场景下，，EdgeClaw 可将综合成本降低约 80%。

李志宇：刚才宇坤谈到了架构上的分流，，我从“影象治理”这一系统视角来回应。MemTensor 的主题逻辑是以认知能力驱动第一性道理建模。

回首 AI 交互的发展：2024 岁首，，用户重要在做 Prompt Engineering，，通过调优提醒词引发模型预训练能力，，但模型往往“回头就忘”，，新开窗口即迷失所有个性化设定。随后，，随着模型支持 128K甚至 1M 的超长高低文，，行业进入了 Context Engineering阶段。然而，，暴力堆砌高低文会导致成本呈指数级爆炸，，这就是“龙虾”这类利用最初被诟病烧钱的原因。

我们提倡并推动 Memory Engineering（影象工程）。它不是单一地增长窗口长度，，而是对状态进行全链路治理，，让智能体不仅能“记住”，，还能在交互中“学习”，，实现越用越聪明。

我们将影象治理拆解为：抽取、组织、检索、更新、共享五个步骤。在现实业务流中，，影象的抽取和更新最容易产生幻觉，，例如模型谬误归档用户信息。为相识决这些问题，，MemOS提出了业界首个三层分层影象模型：

第一层：明文影象（Textual Memory）。写入速度最快，，但读取效能低。在跨场景挪用时，，大规模文本的反复加载成本极高。目前好多 API 厂商提供的“缓存射中优惠”性质上就是在优化这一层。

第二层：参数化影象（Parametric Memory）。通过模型训练将知识内化进权重。读取极快，，能随主链路激活，，但写入（训练）价值高昂，，无法满足实时更新需要。

第三层：激活影象（Activation Memory）。介于两者之间。通过对推算过程中的中央态进行治理，，能够极大提高首字延长和 Token 补全效能。

MemOS 目前在云服务端的月挪用量已突破 3500万次，，开源社区关注度极高。zbo智博1919com贸易逻辑分为四个层级：

按 API 挪用收费：为云端 Agent 提供影象加强服务。

按设备授权收费：与手机、硬件厂商合作，，部署本地化影象模型。

按 Token 优化分成：通过 KV Cache 治理和浅层优化直接降低客户的 Token 账单，，从节俭的成本中获利。

云算力协同：与 GPU 云厂商合作，，优化底层存储与推算效能。

我们以为，，影象治理绝非调调 Prompt 那么单一。它是一场涉及存算效能、模型对齐和系统调度的全方位战争。

用“物理分级”与“影象工程”击穿成本黑洞

岑峰：感激两位的分享。针对 Token 焦虑，，两位出现了分歧的解题蹊径。EdgeClaw 是从架构重构动手，，通过“端云协同”和“物理分级”从源头上堵截无效 Token的亏损；；；MemOS 则是从系统优化切入，，在既有架构下通过“影象分层”和“智能调度”榨取极限效能。

接下来回到用户视角，，Token焦虑最主题的痛点到底是什么？？是单次对话的昂贵感，，还是账单的不成预测性？？

闫宇坤：用户焦虑的本原的确涵盖了这些方面。目前最敏感的问题在于通明度的缺失。大无数用户能够接受为价值付费，，但无法接受算力成本的无端损耗。好比用户仅仅输入一句单一的问候，，系统可能由于反复加载布景信息或挪用了不用要的复杂模型，，瞬间亏损数万Token。因而，，我们必须从架构层面成立美满的亏损统计与日志系统，，首先让用户“钱花得领略”。

在成立通明度的基础上，，我们必要解决“性价比偏好”的对齐问题。性价比自身是一个极具主观色彩的概念：某些工作交给端侧微型模型处置只需几分钱，，而交给顶级云端模型可能耗资数百倍。我们但愿赋予Agent 遵循用户价值观的能力。若是用户偏差于极致节俭，，Agent 应该学会若何在保障根基工作实现的前提下，，优先使用端侧资源。

此外，，我们还在索求一种动态演化的蹊径。最初，，Agent 解决复杂工作可能必要频仍向云端专家“求助”，，产生较高的 Token成本。但随着交互的深刻，，系统会自动纪录云端的执行经验与思想模式，，并逐步将其蒸馏、迁徙至端侧模型。这意味着随着使用功夫的增长，，端侧模型的成功率会不休提升，，整体成本随之出现出持续降落的曲线。这种“越用越便宜”的成长性，，才是缓解用户长效焦虑的关键。

岑峰：宇坤提到简直定性诉求极度关键。但在工程现实中，，像“分析五年来的邮件并天生洞察汇报”这样的复杂的工作往往会逾越分歧敏感等级的数据。这种精密化的分级路由，，是否会由于判断逻辑过于复杂而增长系统职守，，反而抬高了整体工程成本？？EdgeClaw又是若何精准界说本地处置与云端合作的天堑？？

闫宇坤：频仍的路由判断的确是一把双刃剑。在最初的设计中，，我们曾尝试在每次模型挪用时都进行一次隐衷和性价比检测，，但这直接导致了显著的感知延长和推算冗余。更严重的是，，云端服务通常具备高低文缓存复用机制，，频仍的路由切换若是打乱了这种陆续性，，反而会导致 Token 成本上升。

为了平衡这一矛盾，，我们在工程上采取了“分段判断”的战术。我们不再对整个宏观工作进行一次性判断，，也不再对每一次原子化的 API 挪用进行过问，，而是将判断逻辑锚定在Agent 与 Sub-agent的交互节点上。这种中等颗粒度的节制，，既能保障隐衷和谈不会在复杂链路中失效，，又将判断频率降到了系统可接受的领域内，，有效缓解了延长。我们在“小红书内容创作”场景下的实测数据证明，，这种战术在维持产出质量的前提下，，能将正本 10美元以上的工作成本大幅压缩至 2 美元左右。

至于若何界说本地与云端的天堑，，这是一个典型的个性化命题。EdgeClaw 提供了一套蕴含 Prompt描述和工作标签的默认配置。系统会初步判断一个工作是属于逻辑通俗的“推理型”还是流程单一的“执行型”。同时，，我们支持用户染指批改这些判断规定。更前沿的一点是，，我们正在引入“路由自演化”机制，，通过网络用户对工作了局的反馈，，让路由器自觉学习并对齐用户的性价比偏差。这种逻辑与目前的技术自演化异曲同工，，最终让模型可能通过学习，，自主鉴别哪些工作该留在本地，，哪些必须上云。

岑峰：宇坤给出了空间维度的答案，，此刻我们将视角转回功夫的维度。志宇，，您提到影象机制对节俭 Token 至关重要。但我但愿明确一个认知：这些Token 是在影象“存储”环节俭下的，，还是在影象“检索”环节俭下的？？换言之，，在 Agent 的成本账单里，，到底是“记住”更烧钱，，还是“回顾”更烧钱？？

李志宇：这是一个直击性质的问题。若是将 Agent影象的五个闭环（抽取、组织、检索、更新、共享）进行成本拆解，，我的结论极度明确：回顾或者说检索与加载才是真正的高频算力黑洞。

“记住”的过程重要产生在写入阶段，，涉及影象的抽取、总结与结构化处置。固然这个过程必要模型去判断是否去重、是否进行参数化转化，，但它相对低频，，通常是一次性投入。只有没有产生大规模的信息更新，，一条信息一旦入库，，其存储成本是恒定的。

相比之下，，“回顾”是每一次推理行为的必经之路。若是没有高效的影象系统，，Agent会阐发得极度“暴力”：哪怕用户提出一个“你好”这样的单一问题，，系统为了维持个性化，，可能会从后盾检索出数个重大的Markdown 文档或长达上万字的对话提要，，一股脑地塞进 Prompt。这种高频、海量的反复加载，，是导致账单爆炸的主因。

因而，，MemOS系统的优化主题在于提升“写入质量”以反哺“检索效能”。我们致力于将冗长的汗青对话转化为更紧凑、可复用的影象片段。这好比做菜，，若是在筹备阶段（写入）能把菜择得干净、切得尺度，，那么在炒菜（推理）时，，不仅速度快，，还能最大限度预防废料产生的无效热量。总结来说，，固然烧钱的行为产生在后期的回顾阶段，，但解决问题的源头必须回到写入阶段的精密化建模上。

岑峰：提到“精密化建模”，，MemOS 将长时影象切分为片段并进行选择性加载。但在现实利用中，，“必要影象”的界限极度：。若是 Agent由于追求节俭而漏掉了关键信息，，导致用户不得不进行多轮澄清，，省下的 Token会不会被增长的对话轮次所抵消？？这种系统优化的天花板在哪里？？

李志宇：这的确是所有开发者最不安的问题。在影象系统中，，我们遵循“Garbage in, Garbage out”的准则。所谓的“必要影象”，，既不是压缩比例越高越好，，也不是保留原文越多越好。

若是压缩过狠，，好比将其齐全转化为高度抽象的知识图谱，，固然节俭了空间，，但会迷失大量的逻辑高低文，，对模型的推理能力要求极高。若是采取“懈怠影象”模式，，仅做单一的文本切片，，固然处置速度快，，但片段之间不足语义和版本的关联，，召回时往往碎片化，，难以支持复杂的长程决策。

我们界说的“必要影象”是一种“最小自蕴含状态”。举个例子：用户说“请帮我预约星期五在老处所的团圆”。传统的系统可能直接把这句话存下来，，但当 Agent以来回顾起这条信息时，，它会对“老处所”感应猜疑。

在 MemOS的逻辑中，，系统在抽取时若是发现信息不完整，，会触发“期待”或“溯源”机制：要么从汗青库中找寻“老处所”的界说，，要么期待下一轮对话补全信息后再进行存储。我们追求的是在抽取阶段就将检索、推理与工作规划融合在一路。近期我们开源的MemReader模型就在尝试这种“Agentic 抽取”模式：让模型自动鉴别当前信息的完整性，，确保每一个存入的片段都是最小且逻辑闭环的。

实测显示，，通过这种“预判式”的存储，，我们能够用更少的影象片段实现一致甚至更高精度的回覆。原来可能必要召回 10K 的高低文，，此刻只需 6K左右的“自蕴含片段”就能解决问题。这种精准调度的能力，，决定了系统优化的天花板，，它不仅削减了无效的回顾，，更从底子上躲避了因信息缺失导致的行为反弹。

范式之变：端侧算力的“极限压榨”与跨平台影象资产化

岑峰：总结这一轮的会商，，我们达成了两个关键共识：Token 焦虑的性质是系统行为的不成预测性，，端云协同通过物理分级重新构建了这种确定性；；；而 Token亏损的大头在于高频的回顾环节，，系统优化通过精准切分，，削减冗余信息的无效加载。

我们进一步会商技术问题，，我们把稳到 EdgeClaw的路线图高度强调本地模型的作用。目前端侧算力与模型能力正呈指数级增长，，那么将来是否会出现一种可能，，当本地模型足够壮大时，，云端模型将失去其逻辑中枢的职位，，退化为仅掌管联网检索的辅助插件？？

闫宇坤：关于本地模型的天堑问题，，我们必要从硬件与算法两个维度动态观察。固然我小我对本地能力的全面发作持乐观态度，，以为越来越多的复杂工作将回归端侧，，但在可预感的阶段内，，云端模型依然维持着机能上限的优势。

本地模型的深远意思在于，，它正从单纯的隐衷“防火墙”进化为智能体的“个性化演化中心”。当智能体真正作为出产力工具进入专业领域时，，会产生大量无法上云的极细分、极专业的垂直工作。云端大模型受限于贸易成本与通用性尺度，，很难为每一个用户提供定制化的微调服务。

而本地硬件的成熟，，为智能体的“自演化”埋下了伏笔。将来一两年内，，随着火速微和谐在线学习技术的落地，，本地模型能够在与用户的持续交互中，，实时吸收行业 Know-how和小我偏好。这种基于本地专用硬件、模型与垂直数据的闭环，，将构建出比云端更具深度的专业技术。

此外，，端云协同只是第一步，，将来的前进方向是“多节点协同”。分歧的本地模型可能具备分歧的专业能力，，通过端与端、节点与节点之间的合作，，能够实现比单一云端中枢更高效的工作分发。总结来说，，云端将愈发趋向于通用智能的输出，，而本地侧则掌管专业化与个性化的深度沉淀。

岑峰：宇坤描述的端云分工极具远景，，但这也引发了另一个疑虑：对于小我用户或小微企业而言，，采办高机能端侧硬件自身就是一笔不菲的“隐性成本”。EdgeClaw若何平衡硬件投入与 Token 节俭之间的财政账本？？

闫宇坤：硬件门槛的确是一个客观存在的成本。以目前主流的英伟达端侧推算卡（如如DGX spark）为例，，初始采购成本约为 3万人民币。对比来看，，若是高频挪用云端千亿级参数模型的API，，在陆续运行三到四个月后，，其累计亏损的 Token 用度便足以覆盖这台硬件的成本。

但我们必要转换思虑视角：云端 API是持续流出的“改观成本”，，而本地硬件是可折旧的“固定资产”。更深层的逻辑在于对存量价值的挖掘。目前很多企业内部其实存在大量闲置算力，，EdgeClaw的初衷并非胁迫用户增购硬件，，而是通过端云协同框架，，将这些已有的资源转化为出产力。

这种模式扭转了用户的消费神理。在使用纯云端利用（如 OpenClaw 早期版本）时，，用户往往由于高昂的 Token用度而阐发得畏手畏脚，，这现实上克制了智能体的创新使用。一旦工作迁徙至本地，，边际成本趋近于零，，用户会被激励着将硬件机能压榨至极限。

为了进一步降低准入门槛，，EdgeClaw 正在通过自动化调度支持“肆意组合”。用户既能够利用现有笔记本显卡搭配云端便宜的API，，也能够在企业内网部署小型服务器集群。通过与算力平台的对接，，我们致力于让本地模型的启动与守护变得像挪用云端接口一样单一，，让这种“重组成本”在系统演化中被最大水平摊薄。

岑峰：系统重构必要周期，，而系统优化则提供了即时的价值窗口。志宇，，MemOS将操作系统治理内存的逻辑引入影象治理。但操作系统面对的是确定性的物理地址空间，，而AI 影象面对的是高度抽象的语义空间。在 MemOS 中，，界说影象“冷热”的尺度到底是什么？？

李志宇：操作系统的寻址逻辑的确无法直接照搬，，但在设计理念上，，我们引入了“利用概率与频率”作为语义空间的判定准则。

在 MemOS系统中，，影象的冷热判断不是单一地按功夫倒序分列。固然“功夫衰减”是一个关键权重，，但我们更看重三个主题指标：接见频率、工作有关性以及状态一连性。我们会评估某笔影象若是被“忘却”（即未被召回），，是否会对用户当前的决策产生不成逆的影响。

举个例子，，用户在三个月前设定了一个持久财政指标，，随后一向未提及。从功夫轴上看，，这段影象已经进入了“极冷区”。但当用户今天忽然问起“帮我凭据之前的规划做一下报表”时，，系统会在第一个Query进入时鉴别出该工作与那个旧指标的强语义关联，，从而瞬间预热并激活三个月前的所有有关片段。这种“冷影象”的瞬时唤醒，，是基于当前运行的“价值状态”而非单纯的物理周期。

这种设计性质上是在解决存算成本的平衡。鉴于目前GPU显存的昂贵，，我们不成能将海量汗青信息全数常驻显存。我们必须通过模型预测，，将或许率不再被必要的影象下放到“冷备存储”。

这里存在的 Trade-off 是：一旦预测失败，，从冷备区找回影象会带来额外的首字延长和算力开销。因而，，MemOS主题竞争力的体现，，就在于若何通过更精准的语义路由，，降低这种唤醒成本，，确保系统在激活与冷备之间实现动态平衡，，而不是僵化地进行“一刀切”。

岑峰：既然影象调度涉及额外的预测与推算，，那么在工程实战中，，调度行为自身亏损的算力，，与它所节俭的 Token 成本之间，，是否存在一个平衡点？？MemOS在分歧场景下的优化阐发若何？？

李志宇：调度的经济学的确是 MemOS框架中最重要的？？。若是调度的开销过大，，系统就会陷入“空转”的陷阱。zbo智博1919com破局思路是“巨细模型分治”。

我们不再依赖像 GPT-4o这样昂贵的通用大模型来执行影象治理工作。相反，，我们训练了一系列面向影象领域的“专有微型模型”，，专门掌管影象抽取、价值判定、版本更新和重排（Rerank）。这些模型规模极小，，但对影象逻辑的理解极深。通过这种方式，，我们用极低成本的推算，，代替了正本必要亏损高价值Token 能力实现的高低文筛选工作，，从而大幅压低了总成本。

此外，，我们从系统层到硬件层进行了结合优化。通过预填充（Prefill）与解码（Decode）分离的机制，，以及对闲时算力的负载平衡，，我们确保了推理链条的低时延，，同时保障算力资源没有被浪费。

从现实场景的颠簸来看，，优化收益与工作的复杂度和长程性呈正有关。

- 低频短会话：对于仅有几百 Token 的短平快交互，，由于高低文自身极短，，单一拼接进 Prompt 的效能最高，，此时影象调度的收益并不显著。

- 长程复杂工作：当 Agent 必要运行一小时甚至更久来解决某个专业问题时，，影象治理的作用会被显著放大。精准的调度能将正本必要召回的 10K高低文压缩至 6K 的主题自蕴含片段，，这种 Token 节约的收益是指数级的。

岑峰：MemOS 聚焦于长对话场景下的优化，，而 EdgeClaw则更激进地提倡将高频工作搬到本地。这种“系统优化”与“架构重构”的关系，，到底是竞争敌手还是互补同伴？？

闫宇坤：我极度有信心以为它们是互补关系。从技术性质上讲，，架构重构与系统优化是相互正交的。EdgeClaw 的路由机制齐全能够与 MemOS的影象调度逻辑无缝结合。

此刻开发模式正在产生巨变。以往跨系统的集成可能必要数周的沟通与开发，，但在如今 Web Coding 与 AI辅助天生的加持下，，我们能够急剧构建原型并进行试错。将MemOS 的分层影象个性接入 EdgeClaw 的路由节点，，可能只必要两三天的调优周期。这种低难度的组合，，让“治标”与“治本”能够并行不悖。

李志宇：我齐全赞成。若是将端云协同视为智能体的物理存在状态，，那么影象操作系统就是智能体的“状态中枢”。

无论在端侧还是云侧运行，，Agent都绕不开“状态持续性”的命题。端侧善于实时交互与隐衷处置，，云侧善于跨工作整合与大规模推算。但在将来，，用户会占有手机、车机、电脑等多个端。若何保障用户在手机上聊到一半的工作，，能在车机上无缝一连？？这必要一套逾越物理节点的“持久状态层”来治理。

端和云解决的是“推算哪里最快、最省”的问题，，而影象操作系统解决的是“状态若何无缝迁徙、若何持续演化”的问题。即便将来端侧算力无限大，，我们依然必要一个逻辑层来治理分歧设备间的认知一致性。因而，，端云是一种算力协同方式，，而影象治理是状态协同方式，，二者共同组成了将来智能体可能 7×24小时无缝存在的底座。

瞻望将来：当“投入产出比”战胜“参数崇拜”

岑峰：感两位教员不仅达成了技术上的共识，，更揭示了智能体从“工具”向“数字性命”演化的必经之路：算力的归算力，，状态的归状态，，最终通过精准的调度实现效能与智能的共振。我们将持续深刻：当安全与成本达成妥协，，智能的上限又该若何突破？？

随着架构优先和渐进演化两条路线的日益清澈，，影象正从单纯的成本中心转向价值中心。在端云协同的愿景中，，敏感高频工作本地化，，复杂推理上云端。那么，，端与云的算力配比将若何演化？？到 2027年，，本地模型预期能覆盖多大比例的工作？？这种预测是基于摩尔定律的惯性，，还是模型蒸馏等技术的得救？？

闫宇坤：关于端云算力的配比，，能够从短期与持久两个维度审视。短期内，，云端由于基础设施成熟、算力节点密集，，依然占据主导职位。目前端侧算力的多样化水平极高，，尚未出现可能广谱适配所有硬件的通用模型。但随着用户回归理性，，不再盲目追求全量上云，，云端算力会趋于饱和，，端侧占比将随着模型能力的提升而稳步增长。

从持久来看，，到 2027 年左右，，本地模型能覆盖的工作比例可能不再是一个单一的百分比问题。zbo智博1919com愿景是实现一种“始终在线”的端侧模式。这意味着端侧算力将不再是被动期待指令的工作执行者，，而是被“拉满”的自动合作方。

举例来说，，目前的模式是用户要求 Agent 明天筹备一份汇报素材，，Agent 网络完资料便处于静默状态，，直到提醒用户。而在“始终在线”的架构下，，Agent接管工作后，，会在截止日期前的所有闲置功夫里，，自觉地进行深度调研、素材优化和内容润色。即就是一个必要 20 分钟实现的PPT，，它会在后盾持续寻找更精准的论据和更优的表白。这种模式对端侧算力提出了极限挑战，，它不仅依赖于模型蒸馏等降准技术，，更依赖于工作流和影象机制的底层重构。我们有信心到 2027年，，这种自动寻找工作、利用渣滓算力创制价值的架构可能真正落地。

岑峰：宇坤描述了端侧优先的延长，，而 MemOS则更偏差于成为跨平台的影象中枢。当影象成为智能体的主题资产，，平台的贸易模式会产生怎么的转变？？影象的所有权与定价权又该若何界定？？

李志宇：影象产业的演进与早期云推算极度类似。在第一阶段，，我们将其视为一种“能力收费”模式（Memory as a Service）。此时重要解决的是让Agent 从“无影象”变为“有影象”，，通过 API 挪用量、存储空间或包月套餐来变现，，这性质上是一种工具型收费。

到了第二阶段，，影象将演进为“基础设施层”或“持久状态中枢”。平台不仅提供存储和检索，，更掌管跨端、跨 Agent的状态治理。在企业组织内部，，这涉及影象的权限隔离、版本回滚、性命周期治理及安全审计。此时，，用户订阅的是一套跨系统的协同机制，，而非单一的API。

第三阶段则是“生态与价值变现”阶段。当平台上堆集了足够多的用户影象，，它将类似于“数字账号登录”一样的存在。若是一个新利用想要提供极致的个性化服务，，就必须接入这套影象系统。

在所有权方面，，我们从设计之初就明确，，影象的所有权绝对属于用户或企业。平台提供的是治理和加工服务，，而非占有资产。但我们要为用户启发“影象变现”的渠道。好比一位资深律师，，其Agent 在持久的交互中吸收了大量的司法思辨逻辑和专家经验，，这个 Agent 形成的参数化与激活影象包就具备了极高的贸易价值。我们打算打造“Memory Store”，，允许用户将这种高价值影象包上架，，其他用户能够通过订阅来加载这些特定领域的“智慧”，，实现真正意思上的数字分身贸易化，，而不仅仅是单一的角色表演。

岑峰：2026 年已近三分之一，，请两位预测一下，，到今年年底，，Token焦虑的破局点会是什么？？是杀手级利用的出现，，还是端侧算法的发作，，亦或是贸易模式的彻底创新？？

闫宇坤：我更偏差于以为破局点在于“使用模式的突破”。目前国内固然存在“养龙虾”的热潮，，但整体使用方式依然比力粗放。用户往往不明显 Agent到底能解决什么问题，，也不知晓其性价比天堑在哪里。

我们必要一个“杀手级”的模式来教育市场。这种模式能直观地通知用户，，Agent 在什么时辰是出产力工具，，在什么时辰提供的是感情价值。当钱花在哪里、Token亏损产生几多回报被梳理明显后，，焦虑天然会隐没。焦虑的本原不是亏损多，，而是产出与支出的不合等。

李志宇：破局的关键在于“了局密度”。Token 焦虑理论看是账单问题，，性质上是用户对价值感知的缺失。若是你花了几块钱 Token却换来一份让你击节称赏的汇报，，你下次会绝不犹豫地付费；；；但若是换来的是一堆毫无意思的幻觉，，一分钱城市感触贵。

从技术侧看，，破局点在于“流量分流”的成熟。目前大无数用户和 Agent厂商并不具备精准的成本治理能力，，导致高价值模型被浪费在廉价值工作上。若是有一套成熟的路由规划，，能把小工作导向端侧模型，，把长程工作导向缓存复用蹊径，，账单天然会变得优雅。将来的产品状态可能会演变为：用户颁布一条指令，，多个Agent 竞标给出了局，，用户只为那个认可的了局付费。这种模式会将 Token压力的焦虑从用户侧转嫁给厂商。厂商若是不能提供更优的效力比，，就会在市场中失去竞争力。

岑峰：Token 焦虑和影象成本的矛盾不仅存在于智能体领域，，在自动驾驶、游戏 NPC、金融风控等场景同样存在。你们的解法是否拥有跨领域的通用性？？

李志宇：所有的焦虑都能够拆解为“投入产出比”。在游戏领域，，我们通过影象机制能让 NPC具备更持久的脾气连贯性，，显著提升了用户的在线时长和交互意图。当这种业务层面的回报变得可衡量时，，影象治理的成本就不再是职守。这种逻辑在金融风控对长周期行为的追踪上同样合用。

闫宇坤：我有一个稍微“暴论”的概念：将来社会将进入“智能体力资源治理”的时期。从前我们钻研人力资源的合理分配，，将来我们必要钻研若何凭据工作难度、隐衷等级和成本敏感度，，在散布式节点中合理分配智能资源。无论是哪个领域，，只有涉及到智能的挪用，，都存在对通解的需要。我们但愿提出的这套架构能成为这种资源分配的底层尺度。

岑峰：感激两位。今天的会商极度深刻。EdgeClaw 的端云协同试图从源头堵截 Token 损耗的“血脉”；；；而 MemOS的影象调度则在现有架构内榨取每一分效能。

短期看，，系统优化能让用户少烧钱；；；持久看，，系统重构将让 Token焦虑成为汗青名词。正如两位嘉宾所言，，影象正在从成本中心演变为价值中心。将来的主题命题将不再是“这项工作要花几多钱”，，而是“这段影象能带来什么”。这或许才是真正意思上的范式转移。感激宇坤，，感激志宇，，也感激所有在线听众的参加。本场直播到此实现，，感激各人。

YouTube：https://youtu.be/aoRUaH_GNqQ

@陈希云：世界杯投注2 投注多少，，王楚钦孙颖莎提前小组出线
@李明奇：当哆啦A梦拿出气味泡泡糖
@宋亭君：妇女节各地案牍上大分

热点排行

1 金沙官网app下载大厅
2 BET9九州网站
3 皇冠新现金网最新版
4 乐鱼leyu官网登录app
5 ope体育平台d
6 欧宝官方体育app下载
7 微信购买世界杯彩票
8 赏金赚app官网下载
9 bet9九州

【网站地图】