Anthropic推出全新旗艦Claude Sonnet 4.5 模型,創下AI編碼記錄
Anthropic PBC 今天推出了其最新的大型語言模型 Claude Sonnet 4.5 和用于構建人工智能代理的工具包。
該公司將 LLM 描述為世界上最好的編碼模型。此外,它還表示 Sonnet 4.5 在旨在評估神經網絡工具使用能力的基準測試上創下了記錄。
Sonnet 4.5 是一種混合推理模型,這意味著它有兩種模式。當用戶輸入相對簡單的查詢時,LLM 會使用有限的計算能力快速生成響應。當收到更復雜的問題時,Sonnet 4.5 可以花費大量時間來回答答案。這種方法以更高的硬件使用率為代價提高了輸出質量。
Anthropic 使用名為 SWE-bench Verify 的基準測試評估了該模型的編程能力。Sonnet 4.5 以 82% 的得分創造了新的行業紀錄。接下來的兩個最高分也是 Anthropic 模型獲得的,而第四名是 GPT-5 Codex,它正確回答了 74.5% 的問題。
Sonnet 4.5 還在名為 OSWorld 的第二個基準測試中創下了記錄。它用于衡量神經網絡與數據庫等外部應用程序的交互程度。Sonnet 4.5 取得了 61.4% 的創紀錄分數,比四個月前發布的 Sonnet 4 模型 Anthropic 提高了近 20%。
該公司聲稱,其最新的法學碩士在六多個其他基準測試中也優于競爭對手。據 Anthropic 稱,這些測試評估人工智能模型執行解釋圖表和分析財務數據等任務的能力。
Sonnet 4.5 可通過 Anthropic 的 Claude 聊天機器人服務、Claude Code 編程助手及其應用程序編程接口獲得。后兩款產品今天隨著 LLM 的發布而收到了更新。
開發人員通過在命令行界面中輸入指令來與 Claude Code 進行交互。作為今天更新的一部分,Anthropic 對該界面進行了多項可用性改進。此外,它還推出了一個擴展,將 Claude Code 嵌入到流行的 Visual Studio Code 編程工具中。該擴展目前處于測試階段。
Claude Code 的另一個主要新增功能是一項功能,該功能在每次重大更改后自動保存用戶的代碼。如果工作流程中出現錯誤,開發人員可以將他們的代碼倒回到早期的可靠版本。
這些升級與名為 Claude Agent SDK 的開發工具包一起推出。據 Anthropic 稱,其工程師最初構建該工具包是為了支持 Claude Code。客戶可以使用它來構建 AI 代理。
Claude Agent SDK 使代理能夠將工作委托給所謂的子代理,這些子代理可以并行執行多個任務,從而加快處理速度。此外,該工具包可以更輕松地構建可以與外部系統交互的 AI 應用程序。為了降低幻覺的風險,使用 Claude Agent SDK 構建的代理可以檢查其輸出是否存在準確性問題。
該工具包可以與 Claude API 一起使用,它現在提供對 Sonnet 4.5 的訪問。LLM 還加入了其他幾個增強功能。
據 Anthropic 稱,開發人員現在可以讓其人工智能模型訪問“專用內存目錄”,其中包含可以幫助他們回答提示的信息。當不再需要該信息時,可以使用新的上下文編輯工具將其從模型的上下文窗口中刪除。Anthropic 表示,這些增強功能將使 Claude API 能夠處理比以前更復雜的任務。









評論