Anthropic发布更新版Claude模型：Haiku 3.5和Sonnet 3.5

/ Tue, 11/05/2024 - 15:35

Anthropic公司在2024年11月4日发布了最新的Haiku 3.5模型，该模型现已通过Anthropic API、亚马逊Bedrock和谷歌云的Vertex AI平台提供。新模型在代码生成、工具使用和逻辑推理方面展现出了改进的能力，并且在许多基准测试中超越了上一代最大的模型Claude 3 Opus，同时成本约为其1/15。

Haiku 3.5模型

性能提升：Haiku 3.5在代码生成和逻辑推理方面表现出色，尤其是在SWE Bench Verified测试中的得分达到了40.6%，超过了基于“公开可用的最先进模型”的许多代理，包括GPT-4o。

成本效益：Claude 3.5 Haiku的定价为每百万输入token 1美元，每百万输出token 5美元。用户可以通过提示缓存节省高达90%的成本，并通过Message Batches API节省50%的成本。

Sonnet 3.5模型

编程任务改进：更新版的Claude 3.5 Sonnet在编程任务上表现出显著提升，其在SWE Bench Verified测试中的得分从33.4%提高到了49.0%，Anthropic声称这超过了所有公开可用的模型，包括专门的编程系统。

工具使用测试：Sonnet在TAU Bench工具使用测试中也取得了进步，在零售领域的性能从62.6%提高到了69.2%，在更具挑战性的航空领域，从36.0%提高到了46.0%。

AI驱动的计算机交互

Anthropic将其新的“计算机使用”功能描述为重大创新。公司没有为单个任务开发特定工具，而是教授Claude通用的计算机技能，使其能够使用为人类设计的多种标准工具和软件程序。

API集成：Anthropic开发了一个API，使Claude能够感知并与计算机界面交互。开发者可以集成这个API，使Claude能够将指令如“使用我的电脑和互联网上的数据填写此表格”转化为实际的计算机命令。

操作能力：系统可以移动鼠标指针、点击屏幕元素，并使用虚拟键盘输入信息。在OSWorld基准测试中，Claude 3.5 Sonnet在“仅屏幕截图”类别中得分为14.9%，虽然这比下一个最佳AI系统7.8%的得分高得多，但与人类能力相比仍有较大差距。

开发者建议

Anthropic认识到Claude当前的计算机交互技能尚不完美，一些人类觉得轻松的操作，如滚动、拖动或缩放，对Claude来说仍然是挑战。公司建议开发者在实施这一功能时从低风险任务开始。

免责声明：除原创作品外，本平台所使用的文章、图片、视频及音乐属于原权利人所有，因客观原因或会存在不当使用的情况，如，部分文章或文章部分引用内容未能及时与原作者取得联系，或作者名称及原始出处标注错误等情况，非恶意侵犯原权利人相关权益，敬请相关权利人谅解并与我们联系。

Anthropic发布更新版Claude模型：Haiku 3.5和Sonnet 3.5

Haiku 3.5模型

Sonnet 3.5模型

AI驱动的计算机交互

开发者建议

立足算力，聚焦AI

热门推荐

友情链接

关于我们

联系我们