起源:::盛会将启,,,这些议
凌晨突发!GPT-5.5正式上线:::跑分更猛
出品 | 网易智能
作者 | 小小
编纂 | 王凤枝
GPT-5.5来了,,,大模型越来越像智能体了。
今天凌晨OpenAI不测颁布GPT-5.5。最主题的变动不是答案写得更美丽,,,而是它更像一个能自己接活的系统:::理解复杂指标,,,自己拆步骤、、、调工具、、、核了局,,,把一件多环节的工作重新推到尾。OpenAI这次想卖的,,,不只是更聪明,,,而是真能干活。
能力上去了,,,价值也随着上去了。官方API定价GPT-5.5输入每百万token 5美元、、、输出30美元,,,对比GPT-5.4的2.5美元和15美元正好翻了一倍。不外OpenAI也说了,,,GPT-5.5在不少复杂工作里能用更少的token把事件办完。
目前GPT-5.5已经起头向ChatGPT和Codex滚动上线。ChatGPT里GPT-5.5 Thinking面向Plus、、、Pro、、、Business和Enterprise用户,,,GPT-5.5 Pro面向Pro、、、Business和Enterprise用户。API版本官方说很快跟上。
01一份让敌手寡言的跑分单:::终端操作和数学推理甩开身位
先看数据。GPT-5.5在一系列硬核基准测试中,,,把上一代GPT-5.4甩在了身后,,,也压过了竞争敌手一头。
在最能体现智能体规划和工具协调能力的Terminal-Bench 2.0测试中,,,GPT-5.5达到了82.7%的正确率,,,大幅当先Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。
在评估跨44种职业知识工作能力的GDPval测试中,,,GPT-5.5获得了84.9%的胜率或平局率,,,Claude Opus 4.7为80.3%,,,Gemini 3.1 Pro只有67.3%。在衡量模型自主操作真实推算机环境的OSWorld-Verified上,,,GPT-5.5得分78.7%,,,与Claude Opus 4.7的78%旗鼓相当。
数学能力方面GPT-5.5在FrontierMath上的阐发尤其凸起。1至3级标题得分51.7%,,,Claude Opus 4.7为43.8%,,,Gemini 3.1 Pro为36.9%。到了最难的4级,,,GPT-5.5的35.4%远远超过Claude Opus 4.7的22.9%。
网络安全方面,,,CyberGym测试中GPT-5.5得分81.8%,,,Claude Opus 4.7为73.1%。在客户服务场景的Tau2-bench Telecom测试中,,,GPT-5.5无需任何提醒调整就达到了98.0%的正确率。
OpenAI内部还有一个叫Expert-SWE的基准,,,用来评估长周期编码工作并预估人类专家中位实现功夫为20小时。GPT-5.5在这里达到了73.1%,,,上一代GPT-5.4是68.5%。在公开的SWE-bench Pro上,,,GPT-5.5的58.6%则与Claude Opus 4.7的64.3%互有输赢。
第三方评测机构Artificial Analysis做了全面测试。他们的结论是GPT-5.5让OpenAI重新回到了AI领域的绝对第一,,,在他们设定的智能指数中当先3分,,,突破了此前与Anthropic和谷歌三方平局的格局。五大主题评估中,,,GPT-5.5在Terminal-Bench Hard、、、GDPval-AA和APEX-Agents-AA中均居榜首。
科学钻研领域同样没落下。在专一于遗传学和定量生物学的GeneBench上GPT-5.5得分约25%,,,GPT-5.4约为19%。在生物信息学基准BixBench上,,,GPT-5.5以80.5%当先于GPT-5.4的74.0%。
这些数字拼在一路,,,画出了一个概括,,,即GPT-5.5在必要规划和持续执行的智能体工作上优势显著,,,在数学和网络安全等必要深度推理的领域也拉开了距离,,,但在一些无工具的纯学术推理上仍有来有回。OpenAI钻研副总裁阿米莉亚·格莱斯(Amelia Glaese)说,,,无论是在基准测试上,,,还是凭据可信合作同伴的反馈以及他们自己的经验来看,,,这绝对是他们迄今为止最强的编码模型。
但有一组数据不得不提前放开。
在Artificial Analysis的私有基准测试AA-Omniscience中,,,GPT-5.5展示了一个矛盾到让人不安的特点。
GPT-5.5的正确率是所有模型中最高的,,,达到57%,,,意味着它在回顾事实方面的确优于所有竞品。然而它的幻觉率高达86%。作为对比,,,Claude Opus 4.7的幻觉率是36%,,,Gemini 3.1 Pro是50%;;;痪浠八,,,GPT-5.5知晓的器材的确更多,,,但当它不确定答案时,,,它选择闭嘴的概率远低于敌手。它更偏差于给出一个回覆,,,哪怕这个回覆可能是错的。
这组数据与它领略该做什么的主题叙事形成了直接的张力。一个幻觉率86%的模型,,,意味着它在十次不确定的情况下有将近九次会选择硬答而不是认可自己不知晓。这种自负地做错事的偏差,,,刚好是一个被寄望于自主规划和执行工作的模型最必要警惕的特质。这意味着,,,GPT-5.5的确比前辈更会干活了,,,但它在干活过程中不知晓自己不知晓什么的概率,,,也比几个重要竞争敌手逾越一大截。
这不是一个能够轻描淡写带过的小瑕疵。若是这个模型真的被委以独立操作电脑、、、分析数据、、、天生汇报的职责,,,那么用它的人最好时刻记住,,,它干活的自动性和它犯错的自动性可能来自统一种底层机制。Artificial Analysis的测试批注,,,从GPT-5.4到GPT-5.5在这项基准上的14分涨幅重要由知识增长驱动,,,幻觉方面仅有适度改进。这意味着在目前的架构下,,,更强的能力和更高的幻觉率可能是统一枚硬币的两面。
02更聪明,,,也更省token,,,同样的活儿少花四成词元
比分数更值妥贴心的,,,是GPT-5.5达成这些分数的方式。它用的输出token数量大幅削减。单一说就是它找到答案的蹊径更短了。
在Terminal-Bench 2.0测试中,,,GPT-5.5在约3000至4000输出token时辰数就达到了约82%,,,GPT-5.4在相近token数时只有约75%。
在Expert-SWE测试中差距更夸大,,,GPT-5.5用了约30000至35000输出token就达到约73%的分数,,,GPT-5.4花了超过60000 token才达到68.5%。在Tau2-bench Telecom中,,,GPT-5.5用约2000至4000 token达到98%的正确率,,,GPT-5.4用了超过10000 token才达到约92%。
这种token效能直接影响了成本。Artificial Analysis的推算显示,,,固然GPT-5.5每个token的价值比GPT-5.4翻了一倍,,,涨到每100万输入5美元且输出30美元,,,但token使用量削减约40%险些齐全吸收了涨价的影响,,,运行其智能指数的净成本仅增长了约20%。在他们的编码智能指数图里GPT-5.5位于右上方,,,以相对较少的输出token实现了最高的智能分数,,,在成本和机能之间获得了当前的最佳平衡。
必要注明的是,,,这个40%的节俭幅度是在编码和推理类基准工作上测得的。若是使用场景分歧,,,好比长篇写作或盛开式对话,,,token亏损的削减幅度不定一样,,,现实成本增幅也会随之变动。不外在本文引用的几项具体测试中,,,从Terminal-Bench到Expert-SWE再到Tau2-bench,,,token数量的降落是肉眼可见的。
他们还发现GPT-5.5的分歧推理致力水平提供了矫捷的选择。中等致力水平的GPT-5.5在智能指数上得分与Claude Opus 4.7的最高档位相当,,,但成本仅为其四分之一,,,约1200美元对4800美元。低致力水平则破费约500美元就能达到类似成效。这给了用户一个凭据工作需要调节智能与成本的阶梯。
而这所有并没有以就义速度为价值。按OpenAI的说法,,,GPT-5.5在现实服务中实现了与GPT-5.4相当的每token延长。背后是软硬件协同设计的成就。GPT-5.5与英伟达GB200和GB300 NVL72系统共同设计、、、训练并部署。AI自己也帮了忙,,,Codex分析了数周的出产流量模式后,,,编写了自界说的启发式算法来优化GPU之间的负载平衡,,,最终将token天生速度提升了超过20%。
英伟达企业AI副总裁贾斯汀·博伊塔诺(Justin Boitano)评价说,,,GPT-5.5提供了执行繁重工作所需的持续机能;;;谟⑽按颎B200 NVL72系统构建和服务的这个模型,,,让团队可能从天然说话提醒中交付端到端的职能,,,将调试功夫从数天缩短到数小时,,,并将数周的尝试转化为在复杂代码库中的一夜进展。他以为这不仅仅是更快的编码,,,而是一种全新的工作方式。
03能读懂整个代码库,,,不是只会补全下一行
数据和效能说完了,,,来看看现实履历上到底有什么分歧。
GPT-5.5与此前模型最主题的区别,,,在于它不再只是等着你一步步通知它怎么做。用OpenAI总裁格雷格·布罗克曼(Greg Brockman)的话说,,,这个模型真正出格的处所,,,在于它能在更少的领导下做更多的事,,,能够审视一个不明确的问题,,,并自己弄明显下一步该做什么。
这与早期测试者的感触高度一致。Every公司的首创人兼CEO丹·希珀(Dan Shipper)做了一个倒回功夫的测试。
他花了几天功夫调试一个颁布后的问题,,,而后让他最好的工程师之一重写了部门系统。为了测试GPT-5.5,,,他把已经败坏的系统状态交给模型看它能不能产出工程师最终决定的那种重写规划。了局GPT-5.4做不到,,,GPT-5.5做到了。他的评价是这是他遇到的第一个拥有端庄概念清澈度的编码模型。
MagicPath的CEO彼得罗·斯基拉诺(Pietro Schirano)遇到了更复杂的场景。他让GPT-5.5把一个蕴含数百个前端和重构更改的分支归并到另一个也产生了巨大变动的主分支之中。模型在约莫20分钟内一次性解决了所有矛盾,,,最终实现了一个蕴含12个差距的仓库险些齐全。他说自己的感触是真的在与一个更高的智能一路工作,,,甚至有一种尊重感。
其他提前拿到测试权限的高级工程师也汇报了类似履历。他们说GPT-5.5在推理和自主性方面显著强于GPT-5.4和Claude Opus 4.7,,,能提前发现问题,,,并在没有明确提醒的情况下预测测试和审查需要。有人让模型重新架构一个合作式编纂器中的评论系统,,,脱离一段功夫后回来发现它已经搞定了一个靠近齐全的仓库;;;褂腥怂迪招┎槐匾允迪纸行薷,,,对GPT-5.5的打算比GPT-5.4更有信心。
Cursor的结合首创人兼CEO迈克尔·特鲁尔(Michael Truell)从产品角度指出,,,GPT-5.5显著比GPT-5.4更聪明且更悠久,,,能持续工作更长功夫而不会提前终场,,,这对于用户委托给Cursor的复杂或持久运行的工作至关重要。而一位英伟达的工程师在提前失去接见权限后说那感触像被截肢了一样。
这些反馈共同指向一个变动,,,即GPT-5.5不再是期待指令的被动工具,,,而是起头展示某种职业判断力。它能理解系统的全貌并弄明显某件事为什么失败,,,修复该落在哪里以及代码库中还有哪些部门会受到影响。公司内部测试也印证了这一点,,,OpenAI超过85%的员工每周都在使用Codex。
不外并非所有测试者都给出了毫无保留的赞美。一位测试者在社交平台上暗示,,,GPT-5.5在推理效能和知识方面的确有显著提升,,,但对于他关切的器材他得等下一个版本。他直言不以为GPT-5.5比之前有太多进取而只是渐进式的改进。
另一位测试者则把稳到了速度上的变动。GPT-5.5重度思虑模式下2分钟内给出的答案,,,比GPT-5.4在10分钟内给出的更好,,,但他对智能水平的评价维持了克服。
04办公室里的杂活儿,,,它也起头接得动了
让GPT-5.5善于编程的那些能力,,,放到日常知识工作中同样管用。它能更天然地实现从查找信息、、、分析重点、、、操作软件到天生文档的整个闭环。
Box的结合首创人兼CEO阿隆·列维(Aaron Levie)分享了他们的内部测试了局。在金融服务、、、医疗保健、、、公共部门和媒体娱乐等多个行业的真实工作上,,,GPT-5.5相比GPT-5.4有显著提升。金融服务从64%提升至83%,,,医疗保健从61%提升至78%,,,公共部门从59%提升至72%,,,媒体与娱乐从57%提升至70%。他以为GPT-5.5将为企业知识工作智能体带来巨大飞跃。
在ChatGPT中,,,GPT-5.5思虑模式可以为更难的问题提供更快的援手,,,善于编码、、、钻研、、、信息综合与分析以及文档密集型工作。GPT-5.5 Pro版本则更进一步,,,早期测试者反映它的回覆比GPT-5.4 Pro更全面且结构更清澈以及更正确和更有效,,,在贸易、、、司法、、、教育和数据科学领域阐发尤为凸起。
OpenAI内部的日常使用案例更能注明问题。财政团队用Codex审查了24771份K-1税表,,,总计71637页。工作流程排除了小我信息后,,,援手团队比前一年提前两周实现工作。通讯团队用它分析了六个月的演讲要求数据,,,构建了评分微风险框架并验证了一个自动化Slack智能体来处置低风险要求。一名市场营销员工自动化了每周业务汇报的天生,,,每周省下5到10小时。
05科学家的新搭档,,,从基因数据到数学证明都能搭把手
科学钻研领域是GPT-5.5的另一个亮点。它的价值不在于给出一个一次性答案,,,而在于帮钻研人员走完从问题到尝试再到产出的齐全过程。
沃顿商学院教授伊森·莫利克(Ethan Mollick)提前拿到了模型,,,他用一个迟延了十年的真实钻研项目来做终极测试。他把数百个尘封已久的关于众筹的匿名化数据文件丢给Codex里的GPT-5.5,,,文件混合了STATA、、、CSV、、、XLS和Word体式,,,而后只给了四个提醒要求它整顿数据、、、提出新如果、、、用复杂步骤检验并写成学术论文。了局模型产出的论文蕴含真实的文件综述和复杂的统计分析。他的评价是若是这是二年级博士项主张成就他会极度中意。
杰克逊基因组医学尝试室的免疫学教授德里亚·乌鲁特马兹(Derya Unutmaz)使用GPT-5.5 Pro分析了一个蕴含62个样本和近28000个基因的表白数据集。模型在几分钟内天生了具体的钻研汇报,,,并提出了关键问题和见解。他说这项工作正本必要他的团队花上数月。他还说,,,凭借GPT-5.5 Pro,,,他感触AI到了另一个拐点,,,就像之前某些关键版本颁布时让他感触到的那种逾越门槛的感触。
在数学领域,,,一个更硬的成就来自组合学。一个内部版本的GPT-5.5在建设定制工具后,,,援手发现了关于拉姆齐数的新证明,,,拉姆齐数是组合学中的主题对象。这一领域的了局很少见且技术难度高。GPT-5.5找到了一个关于非对角拉姆齐数持久存在的渐近事实的论证,,,随后在Lean中得到了验证。这意味着它不仅在辅助钻研,,,而是在主题钻研问题上贡献了令人惊讶且有效的数学论证。
波兰亚当·密茨凯维奇大学的数学助理教授巴托斯·纳斯克雷基(Bartosz Naskr?cki)在Codex中使用GPT-5.5,,,仅用一个提醒在11分钟内构建了一个代数几何利用,,,实现了以前必要专用工具能力实现的定制数学可视化。
Axiom Bio的结合首创人兼CEO布兰登·怀特(Brandon White)则从药物发现的角度给出了判断。他让GPT-5.5推理重大的生物化学数据集以预测人类药物了局,,,而后看到它在最难的评估中带来了显著的正确性提升。他的判断是,,,若是OpenAI持续维持这样的势头,,,药物发现的基础将在年底前产生扭转。
06攻防能力一路涨,,,这把利刃也有另一面
GPT-5.5的网络安全能力比GPT-5.4又进了一步,,,OpenAI将其生物和网络安全能力评估为高风险。在夺旗挑战工作中,,,GPT-5.5用约20000至40000输出token就达到了约88%的得分,,,GPT-5.4用了超过100000 token才拿到约84%。这种效能提升意味着它发现和利用缝隙的能力变得更强。
OpenAI采取了一种分层应对战术。一方面部署更严格的网络风险分类器来拦截通常用户的敏感要求,,,他们认可一些用户初期可能会感触这些限度烦人。另一方面推出网络可信接见打算,,,让经过验证的安全防御者可能申请使用不受限度的模型版本用于;;;す丶∩枋。OpenAI暗示他们正与当局合作同伴一路索求高级AI若何援手保卫纳税人数据、、、电网和供水系统。
GPT-5.5在颁布前经历了齐全的安全和治理流程,,,蕴含筹备评估、、、特定领域测试,,,以及与内部和外部红队、、、近200个可信早期合作同伴的合作。奥特曼强调他们相信迭代部署是安全战术的重要组成部门,,,通过逐步向世界颁布模型各人最有能力在AI韧性的团队活动中共同应对挑战。
VentureBeat的报道指出,,,在人类最后的考试这类无工具纯推理基准上,,,GPT-5.5 Pro的43.1%仍落后于Anthropic未公开的Claude Mythos Preview的56.8%。这注明在分歧的能力维度上,,,各家模型的优势仍在分化。
07八个月涨价八倍,,,但总账单险些没变
安全能力的提升也意味着更高的训练和部署成本,,,这直接反映在了GPT-5.5的定价上。
GPT-5.5的API输入价值为每100万token 5美元且输出为30美元,,,GPT-5.5 Pro则是输入30美元且输出180美元。目前GPT-5.5已向ChatGPT的Plus、、、Pro、、、Business和Enterprise用户盛开,,,GPT-5.5 Pro从Pro层级起步。在Codex中GPT-5.5对从Plus到Go打算的用户均可使用,,,高低文窗口40万token并提供速度快1.5倍但成本高2.5倍的急剧模式。
AI产品专家阿卡什·古普塔(Aakash Gupta)分析了这个定价轨迹。从去年8月GPT-5的0.63美元到今年3月GPT-5.4的2.50美元,,,再到七周后GPT-5.5的5美元,,,八个月内输入定价涨了八倍。而英伟达暗示其最新芯片将推理成本降低了高达每token 35倍。
古普塔以为,,,OpenAI的成本基础钥浔剧降落,,,但价值却在攀升,,,这里产生的利润率扩张在企业软件史上前所未有。
布罗克曼此前曾说正在构建一个整合ChatGPT、、、Codex和浏览器的超等利用。古普塔的判断是,,,每个在GPT-5.5上构建智能体的开发者,,,都在为OpenAI自己的竞争产品提供资金。他以为OpenAI找到的贸易模式,,,很像那个让微软市值达到3万亿美元的模式。
结语:::能力参差不齐,,,但前沿还在急剧推动
莫利克教授还设计了一个横向对比测试。他让从一年前颁布的o3到最新的GPT-5.5 Pro等多个模型去构建统一个法式化天生的3D仿照,,,展示一个港口城镇从公元前3000年到公元3000年的演变。只有GPT-5.5 Pro真正仿照了一个不休演变的小镇,,,而不仅仅是天生新构筑代替旧的。并且它只用了20分钟,,,GPT-5.4 Pro花了33分钟。
但他也发现了问题。当要求模型创建一个全新的角色表演游戏规定并配图排版时,,,产出在技术上很精彩且101页的PDF排版专业,,,规定也似乎合理。然而仔细读内容,,,AI在长篇虚构创作上的老弊端还在。它喜欢用神秘元素、、、过于复杂但未能齐全兑现的设法、、、奇怪的隐喻、、、过多的华丽句子,,,以及所有角色类似的语气。他的结论是,,,即便在所有惊人的技术进取之中,,,那个参差不齐的前沿依然存在,,,只是它比以前远得多了。
OpenAI首席科学家雅库布·帕乔基(Jakub Pachocki)在颁布之际泄漏,,,他们现实上还有空间来训练比这聪明得多的模型;;;痪浠八,,,GPT-5.5不是终点。
就在今天,,,这个模型已经上线。对于那些必要处置复杂编码工作、、、繁琐知识工作或推动科学钻研的用户来说,,,GPT-5.5提供的不只是一个更快的回覆工具,,,而是一个能理解意图、、、收受流程、、、持续推动工作往前走的系统。而对于开发者来说,,,还得再等一等API的正式盛开。在人类将越来越复杂的工作交给AI的这条路上,,,GPT-5.5是一个值得关注的路标。
@颜民云:::一级毛片免费播放在线视频尤,,,57斤“水中活化石”现身乌江岸边@陈伦雪:::美甲店春节加价套路
@李秀玲:::局地降温超10℃!大降温序幕拉开
热点排行
- 1 免费黄色网站女人黄男人黄
- 2 一级免费黄片视频
- 3 97超碰人人爱
- 4 污香草视频app无限观看下载安
- 5 黄网站视频在线观看免费
- 6 黑魔导❌女🔞孩㊙️战败图
- 7 浴室人妻的情欲hd三级国产
- 8 军官啊〜好痛〜嗯〜轻一点黄
- 9 久久亚洲综合久久忘忧草