足球投注appAnthropic公司在为其模子定名时-欧洲杯网页线上买球-官方网站

栏目分类

新闻资讯: 案例; 设计师; 在施工地; 别墅实施; 陈设; 新闻资讯; 关于我们

热点资讯

欧洲杯2024官网国内分娩总值94.97万亿元-欧洲杯网页线

足球投注app促进擢升老年东谈主生存品性；四是强化四肢处罚-

2024欧洲杯官网入口全新上车漫反射形貌的陆续式尾灯确乎很独

你的位置：欧洲杯网页线上买球-官方网站 > 新闻资讯 > 足球投注appAnthropic公司在为其模子定名时-欧洲杯网页线上买球-官方网站

足球投注appAnthropic公司在为其模子定名时-欧洲杯网页线上买球-官方网站

发布日期：2024-10-27 05:57 点击次数：207

足球投注appAnthropic公司在为其模子定名时-欧洲杯网页线上买球-官方网站

出品｜虎嗅科技组

作家｜余杨

剪辑｜苗正卿

头图｜视觉中国

10月22日，由Anthropic开拓的Claude 3.5迎来重磅升级，发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模子也被称为“十四行诗”（Sonnet），Anthropic公司在为其模子定名时，模仿了文体艺术作品中的术语，其中包括“俳句”（Haiku）、“十四行诗”（Sonnet）和“佳构”（Opus），这些称呼不仅代表了模子的不同版块，也反应了它们在功能和性能上的性情。

Claude 3.5 Sonnet 有着更强的编程才能，全新功能的computer use（蓄意机使用），赈济像东谈主类相通操作蓄意机，可以撤职用户的敕令在蓄意机屏幕上出动光标，点击关连位置，并通过虚构键盘输入信息，模拟东谈主们与我方蓄意机的交互神色。

当今，Claude 3.5 Sonnet 已参加使用。

Claude系列大言语模子，一直被频频觉得是OpenAI的ChatGPT和的Gemini的主要竞争敌手。Anthropic在X中发布了模子基准测试成果，与GPT和Gemini在多个限制进行横向对比。

这些限制包括盘问生水平的推理才能（GPQA Diamond）、本科生水平的常识掌持（MMLUPro）、代码编写才能（Code HumanEval）、数学问题管制才能（MATH）、视觉问答才能（MMMU）以及代理编码（SWE-bench Verified）和代理用具使用（TAU-bench）。

在盘问生水平推理测试（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的准确率拔得头筹，Claude 3.5 Haiku则以41.6%的准确率则稍显失容。而Gemini 1.5 Pro 的准确率为59.1%，居于第二。在本科生水平常识测试（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的准确率跨越，而Gemini 1.5 Pro 则以75.8%的准确率紧随后来。

在这次主打的代码编写才能测试（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的准确率得回了最好得益，GPT-4o系列模子在这一测试中也展现了可以的性能，准确率为90.2%和87.2%。

固然在数学问题管制测试（MATH）中，Claude 3.5系列稍显失容，Gemini 1.5 Pro 仍然碾压全场，但关于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的施展。

而TO B的代理用具使用测试（TAU-bench），则平直关系到大模子的欺诈才能，这次主要测试了零卖和航空限制。Claude 3.5 Sonnet在零卖和航空限制的准确率划分为69.2%和46.0%，而Claude 3.5 Haiku在零卖和航空限制的准确率划分为51.0%和22.8%。

需要防御的是，OpenAI的o1模子眷属由于其依赖于频频的预响应蓄意时分，与典型模子存在根蒂互异，这使得性能比拟变得贫困，因此在本次评估中被排斥在外。

这可能不够具像化。

Anthropic提供了一个演示，在2分钟的视频中，盘问员给Claude建议了一个指示：

我的一又友要来旧金山，我思翌日早上和他一王人在金门大桥看日出。咱们将从太平洋高地起程。你能帮咱们找到一个绝佳的不雅赏场所，检察一下开车时分和日出时分，然后安排一个日期手脚，让咱们有饱和的时分到达那儿吗？

Claude的报告最初是，“让我搜索谷歌寻找最好日出不雅赏场所”，并自行翻开了Google运转搜索。

Claude以用户的居住地为起点，在舆图中check了驾驶时分，随后，Claude不仅翻开了一个新的网页说明翌日的日出时分，还在日期中缔造了行程提醒，并附上了Notes，URL和附件。

开拓者展示出Claude若何操控了我方的条记本电脑，丝滑地完成了一个任务。

Anthropic示意，“咱们并莫得制作特定用具来匡助 Claude 完成单个任务，而是教它通用的蓄意机手段——允许它使用为东谈主类想象的各式要领用具和软件门径。咱们构建了一个 API，使 Claude 大略感知蓄意机界面并与之交互。该 API 使 Claude 大略将领导翻译成蓄意机敕令。开拓东谈主员可以使用它来自动推行重叠性任务、进行测试和 QA 以及进行通达式盘问”。

在其他的demo中，开拓者还让Claude填写了一份来自蚂蚁涵养公司的供应商央求表，需要填写的数据分散在电脑的各个旯旮，Claude跨欺诈进行了搜索，切换到CRM系统中，荡漾页面，查找填表所需的统统信息，然后提交了表格。

AI操作电脑的才能代表了一种全新的东谈主工智能开拓样式，国内开拓者也袒清楚在该限制深远的起劲。

10月23日，在荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展现出 AI 手机端操作才能的雷同特质，不仅帮演示者提交了咖啡订单，还填写了博物馆场馆预约信息。

一部分关爱者对此满怀期待，觉得这意味着责任中很多不得不作念的繁琐事项，都可以交由AI 代劳了。

不外，固然Claude也曾得回了一些得益，但咱们日常使用电脑时的很多操作，如拖拽、缩放等，Claude都还无法作念到。

况且，它的操作仍然相对逐渐，且像东谈主类相通会出错。在一次演示中，Claude不小心点击住手了一个万古分运行的屏幕录制，导致统统摄像都付诸东流。而在另一次编码演示中，Claude则眨眼间“跑神”，运转意思意思盎然地浏览起黄石国度公园的相片。

但绰有余裕，这并不妨碍咱们像莎士比亚相通，将Claude的新时代比作“夏令”。

本施手脚作家独处不雅点，不代表虎嗅态度。未经允许不得转载，授权事宜请筹办 hezuo@huxiu.com

上一篇：欧洲杯2024官网最晚到了2039年之后-欧洲杯网页线上买球-官方网站

下一篇：欧洲杯网页线上买球行动苹果首台“便携式电脑”的探索之作-欧洲杯网页线上买球-官方网站