xAI宣布发布 Grok-2,这是一次重大升级,其聊天、编码和推理能力均得到了提升。
除了 Grok-2,xAI 还推出了 Grok-2 mini,这是主型号的较小但功能强大的版本。两者目前都在 X 上处于测试阶段,并将于本月晚些时候通过 xAI 的企业 API 提供。
Grok-2 的早期版本在LMSYS排行榜上以“sus-column-r”的假名进行了测试。
在发布时,xAI 声称其表现优于 Anthropic 的Claude 3.5 Sonnet和 OpenAI 的 GPT-4-Turbo。不过,值得注意的是,就整体能力而言, GPT-4o目前占据最佳 AI 助手的榜首,其次是谷歌的Gemini 1.5。
xAI 的内部评估流程使用 AI 导师来评估模型在各种实际任务中的表现。该公司表示,“Grok-2 在推理检索内容和工具使用能力方面表现出了显著的进步,例如正确识别缺失信息、通过事件序列进行推理以及丢弃不相关的帖子”。
xAI 分享的基准测试结果表明,Grok-2 和 Grok-2 mini 都比 Grok-1.5 有显著改进。这些模型在研究生水平的科学知识、常识和数学竞赛问题等领域表现出色。值得注意的是,Grok-2 在基于视觉的任务中表现出色,在视觉数学推理和基于文档的问答方面表现出色。
X上的全新 Grok 体验具有重新设计的界面和新功能。Premium 和 Premium+ 订阅者将可以使用 Grok-2 和 Grok-2 mini。xAI 将 Grok-2 描述为“更直观、更可控、更灵活,可执行各种任务,无论您是在寻找答案、协作写作还是解决编码任务”。
xAI 还与Black Forest Labs合作试验他们的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。
对于开发人员,xAI 将于本月晚些时候推出一个企业 API 平台。该公司承诺提供增强的安全功能、丰富的流量统计数据和高级计费分析。还将提供管理 API,用于将团队、用户和计费管理集成到现有工具和服务中。
展望未来,xAI 计划在 X 和 API 上推出多模式理解作为 Grok 体验的核心部分。自 2023 年 11 月宣布 Grok-1 以来,该公司的快速进步归功于“一支人才密度最高的小团队”。
xAI 的重点仍然是利用其新的计算集群来提升核心推理能力,因为它旨在保持其在人工智能开发领域的领先地位。不过,该公司最近同意停止使用某些欧盟数据来训练其模型。
虽然 Grok-2 的发布标志着 xAI 的一个重要里程碑,但很明显,AI 领域仍然竞争激烈。随着 ChatGPT-4o 和 Google 的 Gemini 1.5 领先,以及 Anthropic 等其他主要参与者继续取得进步,AI 霸主地位的竞争还远未结束。