
在最近的模子混战中,不仅仅中国厂商们在卷,Anthropic 也在半个月连气儿发布了两款模子。而其中实盘配资门户网_股票配资平台开户门槛与规则说明,最近发布的 Sonnet 4.6 有些特殊,它不是旗舰,却在多个维度追平以致杰出了旗舰。看起来它用 Opus 1/3 的价钱,就追上了它 99% 的性能。
在这个各家模子皆要干掉 Opus 的时刻,它我方用性价比款的 Sonnet "干掉" Opus,给列位演示了一下,什么才是最卷的模子。

何况,这款模子特殊值得关怀的场所是,它让 AI 操作电脑这件事第一次接近了"果真能用"的临界点。而赶巧在兼并个月,一个叫 OpenClaw 的开源容貌用 17 万 GitHub 星标阐扬了一件事,东谈主手一个的,能替我方干活的 AI Agent,可能成为一个新的趋势。Sonnet 4.6 是模子,OpenClaw 是框架,但它们指向兼并个主义。
低廉的再一次打赢了贵的
在 Anthropic 的家具线中,Opus 是最强最贵的旗舰,Sonnet 是均衡性能和资本的中端款,Haiku 是最快最低廉的轻量款。弥远以来,Sonnet 的脚色是"性价比之选",干不了最难的活但胜在低廉。Sonnet 4.6 冲破了这个样式。
编码方面,它在 SWE-bench Verified 上得分 79.6%,靠拢 Opus 4.6 的 80.8%。Claude Code 的里面测试中,用户 70% 的时辰更偏好 Sonnet 4.6(对比 Sonnet 4.5),以致有 59% 的时辰比昨年 11 月发布的旗舰 Opus 4.5 更受接待。用户反映网络在几个方面,"更少过度工程""更少偷懒""指示罢免显着更好",以及更少出现"明明没干完却说干收场"的情况。
办公任务是更大的惊喜。在 GDPval-AA 这个算计确凿办公场景的评测中,Sonnet 4.6 拿到 1633 Elo,成功杰出了 Opus 4.6 的 1606。低廉的在实验责任场景中打赢了贵的。雷同的事正在行业里反复发生,Google 的 Gemini 3 Flash 也在靠拢 Pro 的阐发,DeepSeek 用远低于好意思国公司的资本磨练出竞争力相称的模子。"低端逆袭高端"仍是不再是新闻,而是 2026 年 AI 行业的结构性趋势。
不外颓落 AI 评测机构 Artificial Analysis 精通到了一个成心念念的细节,Sonnet 4.6 在 GDPval-AA 上使用的 token 数目是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出,某些任务的总资本可能比 Opus 还高。这和价钱表上的数字讲的是两个故事。

软件工程师、AI 时期博主 Joe Njenga 在 Medium 上第一时辰作念了测试,他的感受是,"发布才几天,但 Sonnet 4.6 仍是嗅觉比 Opus 更好用了。" Cosmic 平台作念了一个放荡实验,用总共相通的一句话领导词让 4.5 和 4.6 各生成一个博客利用,论断是 4.6 在贪图试吃和代码架构上有质的晋升,"需要更少的手把手勾通"。编程器具 Kilo Code 成功把 Sonnet 4.6 设为默许推选模子。虽然也有负面声息,发布今日就灵验户论述了函数名幻觉的问题。
价钱跟上一代 Sonnet 4.5 统搭伙样,每百万输入 token 3 好意思元,输出 token 15 好意思元。同期它成了 Free 和 Pro 用户的默许模子,免用度户还新增了文献创建、skills 等功能。但正如上头提到的,"一样的钱买到更强的模子"不等于"用 AI 更低廉了"。Extended thinking 的 token 按输出价钱计费,杰出 200K 的长障碍文有稀奇溢价,而 Agent 场景下动辄千千万万次器具调用,实验使用资本可能反而在加多。
16 个月,Computer Use 从玩物变器具
Sonnet 4.6 还有一个值得单独拿出来说的跨越,即是 Computer Use,也即是 AI 操作电脑的能力。
2024 年 10 月,Anthropic 是第一个推出通用计较机操作 AI 的公司。那时他们我方皆承认这个功能"还很实验性,随机奸险且容易出错",发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能作念的事很有限,迁移鼠标、点击按钮、输入翰墨,基本是个免强能用的遥控器。
之后的每一代 Sonnet 皆在这个维度上跨越。到了 2025 年 9 月的 Sonnet 4.5,收获仍是大幅晋升。但 Sonnet 4.6 才是确凿让这项能力从"时期 demo "走向"可用器具"的节点。在 OSWorld-Verified 上,它拿到 72.5%,简直追平 Opus 4.6 的 72.7%,比 16 个月前的起原晋升了近 5 倍。
数字背后对应的是质的变化。早期用户论述说,Sonnet 4.6 在操作复杂电子表格、填写多法子网页表片面已接近东谈主类水平,何况能跨多个浏览器标签页协同完成任务。在保障行业的基准测试中,Computer Use 拿到 94% 的准确率,是他们测试过的扫数模子中最高的。更关节的一个订恰是可靠性,在他们里面的浏览器自动化场景中,Sonnet 4.6 产生的幻觉流通数目为零,而此前的版块约莫三个流通中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分握续晋升。
这意味着什么?简直每家企业皆有一些"前 API 时期"留传住来的老旧系统,莫适应代接口,无法自动化。以前要让 AI 操作这些软件,就得给每个系统写特地的连合器。而一个能像东谈主一样使用电脑的模子,成功篡改了这个等式。科技圈筹商者 Trung Phan 辱弄说,Anthropic 的 demo 演示了 Claude 帮东谈主在 DMV 网站上续车牌的历程,"但 AI 照旧没法修好 DMV 自身。"
当东谈主东谈主皆有一个 JARVIS
Computer Use 让模子能操作电脑,但要酿成一个确凿帮东谈骨干活的 AI 助手,还需要一层编排框架把模子和现实天下的器具连合起来。这恰是已往两个月 AI 行业最火热的战场。
2 月份最热点的 AI 容貌不是某个大模子,而是 OpenClaw。它原名 Clawdbot(名字来自 Claude 和龙虾钳的双关,后因 Anthropic 商标投诉两度更名),由奥地利建立者 Peter Steinberger 从一个 WhatsApp 机器东谈主作念起,几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台,通过 WhatsApp、Slack、iMessage 采纳指示,帮你管邮件、排日程、订机票、跑剧本,是现在最接近"钢铁侠里的 J.A.R.V.I.S. "的有着铺张级的愿景和使用场景的家具。IBM 征询员 Kaoutar El Maghraoui 的评价是,OpenClaw 阐扬了自主 AI Agent "不限于大企业,不错是社区驱动的"。
OpenClaw 火爆的原因,不仅仅它自身作念得好,更因为它戳中了一个被压抑已久的需求。已往一年,AI 聊天机器东谈主仍是阐扬了我方在回答问题和生成内容上的能力,但用户确凿想要的是一个能替我方"作念事"的助手,不仅仅聊天,而是能操作软件、实行任务、跨利用互助。OpenClaw 让这个需求第一次有了一个具体的、不错跑起来的家具形态。
但 OpenClaw 也泄漏了个东谈主 AI Agent 面对的中枢矛盾。安全征询东谈主员发现杰出 13.5 万个泄漏在公网上的实例;Cisco 检测了其手段商场名循序一的插件,发现能偷偷将用户数据发送到袭击者职业器。Andrej Karpathy 领先称基于 OpenClaw 建立的 Moltbook 是"我见过的最科幻的东西",几天后说"不提议任何东谈主在我方的电脑上运行它"。一个填塞灵验的 AI Agent 必须领有填塞大的权限,而填塞大的权限自然带来填塞大的风险。这个矛盾现在莫得东谈主确凿料理。
更值得关怀的是 OpenClaw 对 AI 行业生意样式的潜在冲击。OpenClaw 是模子无关的,它能跑 Claude,也能跑 ChatGPT,也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户战役 AI 的主要进口,底层模子就有被"商品化"的风险,就像 Android 让手机硬件品牌竞争变得暴燥一样。有筹商者仍是在问," OpenClaw 会不会成为 AI 时期的 Android?"
2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 亲口说" the future is going to be extremely multi-agent "(改日一定是很是多 Agent 的)。OpenClaw 转型为基金会容貌,但它激发的这场对于"谁领有 Agent 层"的争夺才刚启动。
这亦然意会 Sonnet 4.6 的另一把钥匙。Anthropic 的支吾策略不是等着被别东谈主的 Agent 框架调用,而是把 Agent 能力成功作念进模子里。Computer Use、Claude Code、Cowork,皆是在构建一个"模子 + 器具链"的紧缚生态。Sonnet 4.6 把这些能力下放到中端价钱,骨子上是在说,你不需要一个第三方框架来让 AI 替你干活,用 Claude 就行。
虽然,能力越强意味着风险也越网络。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作场景中阐发出"过度主动"的行为,比如未经授权发送邮件、过于激进地取得 token,何况这种行为无法通过领导词总共幸免。颓落评测机构 Andon Labs 在 Vending-Bench 测试中发现,Sonnet 4.6 展现出与 Opus 4.6 雷同的政策复杂度,包括自觉的价钱把握和对竞争敌手的乱来行为。他们的评价是,"简直一样令东谈主印象潜入,也简直一样令东谈主担忧,何况惟有三分之一的价钱。"
Anthropic 道路
把视角拉回 Anthropic 自身,Sonnet 4.6 仅仅它 2 月份密集行为的一部分。
2 月初,Anthropic 在超等碗投放了一组系列告白,共四条片子,离别叫" Betrayal "" Deception "" Treachery "" Violation ",赛前和赛中各播一条,另两条在线高尚通,直指 OpenAI 在 ChatGPT 中加入告白的决定,slogan 是" Ads are coming to AI. But not to Claude. "收尾权臣,网站探听量涨了 6.5%,日活用户增长 11%,Claude App 冲进了 Apple App Store 前十。
紧接着,Anthropic 告示完成了 300 亿好意思元融资,估值达到 3800 亿好意思元,半年翻了一倍多。年化收入攀升至 140 亿好意思元,其中 Claude Code 的年化收入就有 25 亿好意思元,企业订阅本年翻了四倍。

OpenAI 的 CEO Altman 对此不太欢叫,品评 Anthropic 的超等碗告白"显着不真挚",说它是"把腾贵家具卖给有钱东谈主"。Anthropic CEO Dario Amodei 的稍早少许在达沃斯论坛说我方不需要"跟某个大玩家进行十亿免用度户的归天竞赛"。
这约略泄漏了两家公司在道路上的某种不合。从公开信息来看,OpenAI 更倾向用户领域道路,免用度户尽可能多,再通过告白和升值职业探索变现;它收编 OpenClaw 独创东谈主,亦然在霸占 Agent 编排层的进口。Anthropic 走的看上去更像是坐褥力器具道路,80% 的收入来自企业客户,中枢卖点是 coding 和 agent 能力,不作念图片生成,不太追求 C 端 DAU,而是把 Agent 能力内建到模子自身。Sonnet 4.6 让免用度户也能使用旗舰级能力,自身即是对"只职业有钱东谈主"这个品评的无声恢复。
有一个数字约略能证实 AI Agent 能力晋升带来的冲击,自 Anthropic 和 OpenAI 密集发布新模子以来,软件股仍是挥发了约 2 万亿好意思元的市值。投资者正在 price in 一个可能性,AI Agent 对传统 SaaS 软件的替代,可能比扫数东谈主猜想的皆快。
12 天两个模子实盘配资门户网_股票配资平台开户门槛与规则说明,两周三次头条。这可能会成为 2026 年 AI 行业的默许节拍。
实盘配资门户网_股票配资平台开户门槛与规则说明提示:本文来自互联网,不代表本网站观点。