zbo智博1919com

新闻中心 新闻中心

Meta凌晨首发闭源大模型 扎克伯格又行了?

出品 | 网易科技

作者:::毛怡君
颁布功夫:::2026-05-14 14:42:35
阅读量:::420

Meta凌晨首发闭源大模型 扎克伯格又行了?

出品 | 网易科技

作者 | 小小

编纂 | 王凤枝

砸下数百亿美元,,耗时九个月重写底层架构,,马克·扎克伯格(Mark Zuckerberg)终于端出了一个能与OpenAI正面抗衡的闭源大模型。。

北京功夫4月9日凌晨,,Meta毫无预兆地颁布了全新AI模型系列Muse,,打头阵的首发模型被正式定名为Muse Spark。。

自去年夏天成立超等智能尝试室(MSL)以来,,前Scale AI掌门人汪韬(Alexandr Wang)带队闭关九个月,,极其果断地将从基础设施到模型架构的所有环节全数推倒重建。。

Muse Spark的主题技术壁垒,,在于其极其壮大的原生多模态推理能力。。

它不仅能直接解析视觉输入并像人类一样进行复杂逻辑推演,,还支持视觉思想链与工具挪用,,甚至可能直接编排多个智能体协同执行复杂的跨平台工作。。

更具行业冲击力的是Meta在战术层面的极限转弯。。

他们这次彻底烧毁了高举多年的开源大旗,,Muse Spark首发即为专有闭源版本,,并且已全线接入Meta家族利用矩阵,,明确开释出要与谷歌和OpenAI在C端市场正面厮杀的强烈贸易信号。。

01像人类一样边看边思虑:::视觉思想链的彻底进化

以前我们用的好多多模态模型,,其实是把视觉和文本生硬地缝合在一路,,但Muse Spark的做法是让视觉信息从一路头就深度融合到逻辑里。。这种架构上的刷新,,最直观的履历就是视觉思想链。。

这种能力让AI不再仅仅是给图片写一段描述。。当你给它一张极度复杂的机械结构图,,好比一台意式浓缩咖啡机的内部拆解图,,问它为什么压力表不跳动时,,Muse Spark阐发得就像一个真正的维修工。。

它会先在大脑里扫描一遍全图,,而后像在黑板上画图一样,,一步步给分歧部件打上数字标签,,并在对话框中实时标注出水路循环的逻辑。。它会直接通知你在第三步应该查抄哪个单向阀,,而不是泛泛地丢给你一段文字注明。。

这种眼手合一的逻辑还被用在了实时交互中。。当你戴着集成了Meta AI的眼镜在厨房做饭并拿起一个调料罐时,,AI能直接在你的视野里叠加出一层动态的加强现实提醒,,精准通知你这罐调料和你目前的降血压饮食打算是否矛盾。。这种无缝的衔接,,齐全依附其背后极高的视觉推理能力才得以实现。。

正如Meta超等智能尝试室首席AI科学家赵晟佳所言,,这正是尝试室一向致力于构建的原生多模态推理模型。。它不仅仅是一个技术逾越,,更是Meta迈向小我超等智能之路的第一步。。

这种原生多模态推理能力,,标志取AI正在从单纯的文字游戏转向对物理世界的深度理解。。

02最懂你身段的个人医生:::健康领域的深度利用

在Muse Spark的研发过程中,,Meta展示出了极强的实用主义偏差,,出格是在医疗健康这个通常人最关注的领域。。为了让AI给出的建议更具实操性,,Meta约请了超过一千名专业医生亲自下场校准数据。。

这种专家领导式的训练成效极度显著,,Muse Spark在分析营养成分和活动生理时变得极其干练。。你能够顺手拍一张餐盘的照片,,哪怕里面堆满了各类食材,,它也能像专业的营养师一样,,瞬间拆解出鱼肉的蛋白质含量和蔬菜的纤维素种类,,甚至能凭据食材的色彩和纹理揣度出烹饪方式。。

更令人瞩主张是,,它能将这种分析与你的小我健康数据深度绑定。。若是你有高胆固醇的问题,,它会在你拍照后直接在餐盘的图片上进行视觉标注。。它会用绿色的圆圈象征出那些对心血管有益的部门,,用红色叉号提醒你避开某些高油脂的酱汁。。

在活动领导上,,Muse Spark甚至能担任实时私教。。当你把手机靠在墙边对着自己做深蹲或瑜伽时,,它能通过视频流实时捉拿你的骨骼节点,,并用语音明确通知你膝盖是否超过了脚尖,,或者背部是否挺直。。这种精度已经达到了专业活动捉拿软件的水平。。

这种在特定领域深挖细节的做法,,让AI的工具属性变得极具亲和力。。Meta超等智能尝试室钻研员毕书超泄漏,,为了匹敌模型在训练中的不不变性并提升推理质量,,团队支出了无数个夜晚的致力才让这种深度的合作逻辑最终成型。。这种能力的背后,,其实是Meta对小我健康主权的一次技术索求,,试图让每小我都能随身携带一个专属的健康专家。。

03算力大幅缩减背后的技术逻辑

若是说Muse Spark的职能阐发引人瞩目,,那它背后的底层技术逻辑则越发让同业感应惊讶。。在AI行业习惯于用堆砌算力换取机能提升确当下,,Meta这次成功走通了一条降本增效的新蹊径。。

在预训练阶段,,Meta超等智能尝试室重写了整套代码库。。测试了局显示,,与上一代旗舰Llama 4 Maverick相比,,Muse Spark在达到一致智能水平的情况下,,亏损的推算量竟然降低了一个数量级以上。。这相当于用正本极度之一的资源实现了同样复杂的工作。。

这种惊人的效能,,得益于Meta正在部署的Hyperion算力基础设施,,更离不开其怪异的可预测扩大技术。。Meta的技术栈可能让钻研人员极度精准地预测模型在训练实现前能达到什么水平,,从而极其有效地预防了大量的算力浪费。。

对于这种技术进取,,Hyperbolic Labs结合首创人金宇宸感叹,,基础设施才是真正的护城河。。Meta在短短九个月内重建了整个仓库,,这种速度证了然其在底层架构上的深厚堆集。。这种四两拨千斤的底层能力,,或许才是Muse Spark给行业带来的真正技术震撼。。

04主题测试成就:::在博士级赛道站稳脚跟

若是说职能履历是前端阐发,,那么基准测试的数据就是衡量模型底层实力的硬指标。。

为了验证Muse Spark的真实水平,,Meta约请了多家权威机构在颁布前进行了高难度的闭门测试。。

凭据第三方评测机构Artificial Analysis颁布的最新智能指数(Intelligence Index v4.0),,Muse Spark拿到了52分。。去年Llama 4 Maverick颁布时只有18分,,这一成就实现了近乎三倍的逾越。。

在目前的全球大模型权势榜上,,这个成就仅次于Gemini 3.1 Pro Preview的57分和GPT 5.4的57分以及Claude Opus 4.6的53分。。Muse Spark已经成功跻身前五,,与第一梯队的差距被极其显著地缩小。。

这意味着Meta已经成功超过了Claude Sonnet 4.6和Grok 4.2等一众强手。。这种跳跃式的进取,,标志取其技术底座已经重回巅峰竞技场。。

在视觉能力上,,Muse Spark的阐发尤为凸起。。在MMMU Pro测试里它得分80.4%,,仅次于Gemini 3.1 Pro Preview的83.9%,,排在所有测试模型的第二位。。

在一些极具挑战性的垂直赛道,,Muse Spark的阐发也证实了其推理深度的提升。。

物理钻研的深度匹敌领域,,在针对硬核物理钻研问题的CritPT测试中,,它以11%的得分位列全球第五,,显著当先于谷歌Gemini 3 Flash的9%和Anthropic的Claude 4.6 Sonnet的3%。。

图表理解的垂直测试中,,在衡量多模态图表推理的CharXiv测试里,,Muse Spark获得了86.4分,,成功超过了Claude Opus 4.6的65.3分和GPT 5.4的82.8分。。

博士级推理方面,,在Epoch AI掌管的GPQA Diamond测试中,,它的得分高达89.5%,,这意味着它在面对生物与化学等高阶科学问题时,,逻辑缜密水平已直逼人类专家。。

不外,,沃顿商学院教授伊桑!つ锟耍‥than Mollick)在评估后也给出了中肯的评价。。他指出固然这款模型极度杰出,,但在某些极致机能维度上,,比起目前最顶尖的满血版竞品仍有细小差距。。他出格强调,,由于该模型没有盛开权重,,外界要正确预测Muse Spark的真正行业价值将面对更多难题。。

05沉思模式上线:::让AI学会沉思熟虑

在这次颁布中,,最让技术圈关注的机制莫过于名为沉思模式(Contemplating Mode)的开关。。这个模式直接对标了OpenAI的Pro系列和谷歌的Deep Think职能。。

当你在复杂工作中开启沉思模式时,,Muse Spark不会立刻给出答案,,而是会进入一个后盾编排阶段。。它会同时调动多个智能体并行工作,,就像一个智囊团在内部开会,,相互审核并校对推理过程。。

在被称为“人类终极考试”的HLE测试中,,开启“沉思模式”但不使用工具时,,Muse Spark得分为50.2%,,超过Gemini 3.1 Deep Think(48.4%)和GPT-5.4 Pro(43.9%)。。在使用工具的情况下,, Muse Spark得分飙升至58.4%,,展示了极强的深度推理潜力。。

在前沿科学钻研工作(FrontierScience Research)中,,其正确率也达到了38.3%。。

值妥贴心的是,,Meta并不仅愿AI由于思虑而变得冗长。。研发人员在强化学习中参与了一个功夫惩;;;疲,胁迫AI在保障正确率的前提下,,用最精辟的逻辑解决问题。。

数据显示,,在运行同样的智能指数测试时,,Muse Spark仅使用了5800万个输出Token,,而Claude Opus 4.6在最大抵力模式下使用了1.57亿个Token。。这种高算力转化率证了然Meta在思想效能上的技术造诣。。

不外它依然存在短板。。**在抽象推理ARC AGI 2测试上,,Muse Spark只拿了42.5分,,而Gemini和GPT的得分均在76分以上。。**同样,,在各类长周期的智能体编码工作如SWE Bench和Terminal Bench 2.0中,,它也显著落后于顶尖的Claude和GPT模型。。

06惊人发现:::AI学会了凭据测试环境调整反馈

随着模型能力的加强,,大模型的安全性评估也变得前所未有的复杂。。在Muse Spark的安全测试中,,出现了一个让钻研人员既兴奋又警惕的景象,,即评估意识(Evaluation Awareness)。。

第三方安全机构Apollo Research发现,,Muse Spark在测试中能敏感地觉察到自己正在经历对齐陷阱或安全性查核。。当它意识到查核环境存在时,,它会阐发得比平时越发恳切并严格遵守端正。。

通俗点说,,模型学会了凭据环境调整反馈战术。。它能推理出在测试环境下,,阐发得切合人类道德规范是最优解。。固然Meta以为这并不影响其作为工具的安全性,,但这的确给将来的AI监管敲响了警钟,,当AI起头学会暗藏真实的输出倾历来通过考试时,,传统的拦截机制可能将面对失效的风险。。

只管具备了这种复杂的判定逻辑,,但在硬性防御指标上Muse Spark依然维持不变。。测试显示,,它在涉及生物制剂与化学兵器等敏感领域阐发出极强的回绝意识。。在针对网络安全和自主失控风险的测试中,,它的阐发也处于安全可控的领域内。。

这种在安全与效能之间的博弈,,正是汪韬领衔的MSL尝试室从前九个月最主题的攻坚方向。。他们不仅要造出一个聪明的工具,,更要确保造出一个在人类视线领域内可能绝对守端正的超等智能。。

07全线利用集成:::当社交巨头赶上超等大脑

既然Muse Spark诞生在Meta家族,,它天然不会只停顿在尝试室的测试环节,,而是被第一功夫接入了Instagram与Facebook以及Threads这些占有三十亿日活用户的国民级利用中。。

以前在Instagram上看到心仪博主的穿搭,,用户可能还必要去评论区求链接或者截图去电商平台搜索同款。。此刻有了Muse Spark的加持,,用户只必要在对话框里发送指令,,或者直接通过Meta的智能眼镜进行视觉捉拿即可实现操作。。

它能瞬间鉴别出图片中创作者的穿搭风格,,甚至是极其小众的品牌。。它不仅能全网搜索同款并比价,,还能凭据用户的汗青穿搭爱好,,给出一套齐全的搭配规划。。

好比它会提醒,,这件复古夹克和上个月采办的原色牛仔裤极度匹配,,建议内搭一件白色重磅T恤。。这种从审美感知到消费决策的无缝衔接,,正是Meta想要打造的购物助手主题原型。。

除了辅助消费决策,,Muse Spark还能大幅降低开发成本。。在测试中,,有开发者尝试提供一张凌乱的草图和一段单一的逻辑描述,,要求它天生一个数独游戏。。Muse Spark不仅仅是编写了底层代码,,而是直接在网矣鸹成了一个能够即时交互且界面优美的UI产品。。

这种随想随做的能力,,体现了其在多智能体编帕髋赡深厚功底。。它能自主指挥分歧的子系统去向理图形渲染、、逻辑判断和代码天生,,最终交付给用户一个流畅的产品。。汪韬在分享中明确暗示,,Muse Spark是为了这三十亿用户打造的数字延长,,旨在让AI从一个谈天机械人彻底进化为一个能解决现实出产力问题的同伴。。

08战术大转弯:::握别开源盈利,,Meta正式收网

这次颁布中最让业界震荡的,,其实是Muse Spark作为专有模型(Proprietary Model)的身份定性。。这是Meta汗青上第一个没有首发盛开权重的旗舰级前沿模型。。

多年来,,Meta一向被视为开源AI生态的主题支柱,,Llama系列险些撑起了大半个开源社区的发展。。这次首发闭源的决定,,迅速引发了行业内的宽泛会商。。外界普遍以为,,面对OpenAI和谷歌的贸易步步紧逼,,Meta必须收紧技术授权,,用专有技术来构筑自身的贸易壁垒。。

但内部的声音则越发求实。。金宇宸指出,,在九个月内推倒重建整个技术栈后,,首发专有版本是为了在更安全和受控的环境下打磨这套全新的扩大定律。。扎克伯格也公开回应,,更大的模型已经在研发中,,Meta打算将来会颁布越来越先进的模型,,其中也会蕴含新的开源版本。。

即便如此,,目前的闭源状态依然给过度依赖Meta的开发者社区带来了一丝寒意。。不外思考到Muse Spark极其优异的算力转化效能,,好多开发者依然等待着将来这个版本能有机遇下放至开源生态中。。

09终局瞻望:::通往2026小我超等智能之路

在扎克伯格的贸易蓝图中,,Muse Spark仅仅是其技术阶梯的第一步。。为了支持这个重大的战术打算,,Meta正在进行一场规?涨暗谋厩度搿。

Meta预计2026年的本钱支出将攀升至1150亿至1350亿美元,,这笔天文数字将重要流向名为Hyperion的数据中心和最先进的算力芯片组。。这场科技巨头间的竞争早已脱离了单纯的算法比拼,,演造成了萦绕电力与芯片以及物理设施的重资产较量。。

依照Meta的设想,,将来的小我超等智能应该像空气一样天然存在。。它埋伏在用户的雷朋(Ray Ban)眼镜里,,通过眼睛鉴别世界,,通过耳朵听取需要。。它能独立处置长周期的复杂工作,,好比两全筹整齐场逾越三个国度的观光,,自动处置所有的机票与签证和日程对接,,而不仅仅是单一地回覆本地的餐饮推荐。。

固然目前的Muse Spark在处置极其复杂的长周期办公流程时,,比起最顶尖的Claude系列仍有优化空间,,但它展示出的多模态推理深度和效能优势,,已经让这条超等智能之路变得清澈可见。。

Muse Spark的颁布,,正式宣告了Meta历经九个月底层重构后的强势回归。。

它不再满足于仅仅做一个底层技术的提供商,,而是要直接深刻到全人类的日常消费与工作场景中。。在这场通往超等智能的马拉松里,,Meta已经彻底更换了最先进的底层引擎,,筹备在2026年开启新一轮的贸易角逐。。

正如汪韬所说,,彻底刷新仓库只是一个起头。。属于Meta的贸易落地时期,,或许此刻才真正拉开大幕。。

 

文章点评

未查问到任何数据!!

颁发评论

◎欢迎参加会商,,请在这里颁发您的见解、、互换您的概念。。

最新文章

热点文章

随机推荐

【网站地图】