Anthropic发布更新版Claude模型:Haiku 3.5和Sonnet 3.5
Anthropic公司在2024年11月4日发布了最新的Haiku 3.5模型,该模型现已通过Anthropic API、亚马逊Bedrock和谷歌云的Vertex AI平台提供。新模型在代码生成、工具使用和逻辑推理方面展现出了改进的能力,并且在许多基准测试中超越了上一代最大的模型Claude 3 Opus,同时成本约为其1/15。
Haiku 3.5模型
性能提升:Haiku 3.5在代码生成和逻辑推理方面表现出色,尤其是在SWE Bench Verified测试中的得分达到了40.6%,超过了基于“公开可用的最先进模型”的许多代理,包括GPT-4o。
成本效益:Claude 3.5 Haiku的定价为每百万输入token 1美元,每百万输出token 5美元。 用户可以通过提示缓存节省高达90%的成本,并通过Message Batches API节省50%的成本。

Sonnet 3.5模型
编程任务改进:更新版的Claude 3.5 Sonnet在编程任务上表现出显著提升,其在SWE Bench Verified测试中的得分从33.4%提高到了49.0%,Anthropic声称这超过了所有公开可用的模型,包括专门的编程系统。
工具使用测试:Sonnet在TAU Bench工具使用测试中也取得了进步,在零售领域的性能从62.6%提高到了69.2%,在更具挑战性的航空领域,从36.0%提高到了46.0%。
AI驱动的计算机交互
Anthropic将其新的“计算机使用”功能描述为重大创新。公司没有为单个任务开发特定工具,而是教授Claude通用的计算机技能,使其能够使用为人类设计的多种标准工具和软件程序。
API集成:Anthropic开发了一个API,使Claude能够感知并与计算机界面交互。开发者可以集成这个API,使Claude能够将指令如“使用我的电脑和互联网上的数据填写此表格”转化为实际的计算机命令。
操作能力:系统可以移动鼠标指针、点击屏幕元素,并使用虚拟键盘输入信息。在OSWorld基准测试中,Claude 3.5 Sonnet在“仅屏幕截图”类别中得分为14.9%,虽然这比下一个最佳AI系统7.8%的得分高得多,但与人类能力相比仍有较大差距。
开发者建议
Anthropic认识到Claude当前的计算机交互技能尚不完美,一些人类觉得轻松的操作,如滚动、拖动或缩放,对Claude来说仍然是挑战。公司建议开发者在实施这一功能时从低风险任务开始。
免责声明:除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系。