当地时间10月22日,Anthropic 发布了新版的 Claude 3.5 Sonnet 以及全新的 Claude 3.5 Haiku 模型。升级后的 Claude 3.5 Sonnet 在编程能力上更为强大,同时引入了“计算机使用”这一全新功能,使其能够模拟人类的计算机操作,用户可以指令 Claude 移动光标、点击位置并通过虚拟键盘输入信息,从而实现与计算机的交互。


现在,升级版 Claude 3.5 Sonnet 已经可供使用,计算机使用的测试版也已开放。

经过改进的 Claude 3.5 Sonnet 在各方面都有显著提升,尤其是在编码能力方面处于行业领先地位。
Anthropic 的首席科学官 Jared Kaplan 认为,这标志着一个新时代的来临,AI 模型将能像人一样使用各种工具完成任务。Claude 3.5 Sonnet 的发布意味着 Anthropic 在商业 AI 模型领域迈出了重要一步,旨在超越传统的聊天工具,成为真正的“AI 代理”。
“AI 代理”是指能够像人类一样执行软件操作和计算机任务的 AI 模型。一些 AI 代理,如 Cognition AI 的 Devin,专注于编程,而 Anthropic 则将其 AI 代理视为多功能工具,声称能浏览网页并使用各种网站和应用程序,满足用户的不同需求。
在 Wired 的演示中,Claude 被请求规划一次与朋友在日出时观看金门大桥的旅行。它启动了网页浏览器,在谷歌上搜索合适的观景点,并将行程添加到日历应用程序。尽管这一过程令人印象深刻,但 Wired 指出 Claude 并未考虑到如何到达目的地等实用细节。


在另一个演示中,Claude 被要求创建一个简单的网站,并使用微软的 Visual Studio Code 进行操作,甚至启动了本地服务器进行测试。尽管在创建过程中出现了一些小错误,但 Claude 能在提示后及时纠正代码。

然而,尽管这些 AI 模型展现了潜力,但在可靠性方面仍面临挑战,尤其是在编码方面,Claude 3.5 Sonnet 也存在不足。据 TechCrunch 报道,即便是简单的任务,如预订航班和修改预订,Claude 3.5 Sonnet 的成功率也不到一半。
除了技术上的不足,AI 代理还带来了明显的安全隐患。用户是否愿意让这些不稳定且难以预测的技术访问个人电脑文件和使用网络浏览器,依然是一个值得深思的问题。
Anthropic 表示,通过逐步开放这一相对安全的 AI 模型,有助于提升 AI 代理的安全性。他们在声明中指出:“我们认为,与其等待更强大的模型出现,不如让现有较为安全的模型接触电脑,这样我们可以开始观察和应对潜在问题,同时逐步增强安全措施。”