伽利略 (Galileo) 是一家领先的企业应用生成式人工智能开发商,已发布其最新的幻觉指数。
该评估框架以检索增强生成 (RAG) 为重点,评估了 OpenAI、Anthropic、Google 和Meta等主要参与者的 22 个杰出的 Gen AI LLM 。今年的指数大幅扩大,增加了 11 个新模型,以反映过去八个月开源和闭源 LLM 的快速增长。
Galileo 首席执行官兼联合创始人 Vikram Chatterji 表示:“在当今快速发展的人工智能领域,开发人员和企业面临着一个关键挑战:如何利用生成式人工智能的力量,同时平衡成本、准确性和可靠性。当前的基准通常基于学术用例,而不是现实世界的应用。”
该指数采用了 Galileo 专有的评估指标“上下文依从性”,以检查不同输入长度(从 1,000 到 100,000 个标记)的输出不准确性。这种方法旨在帮助企业在 AI 实施中做出明智的决策,平衡价格和性能。
该指数的主要发现包括:
Anthropic 的Claude 3.5 Sonnet成为整体表现最佳的模型,在短期、中期和长期情境场景中始终获得近乎完美的得分。
谷歌Gemini 1.5 Flash被评为性价比最高的机型,在各项任务中均有强劲表现。
阿里巴巴的Qwen2-72B-Instruct脱颖而出,成为顶级开源模型,尤其在短场景和中场景下表现出色。
该指数还强调了 LLM 领域的几种趋势:
开源模型正在迅速缩小与闭源模型的差距,以更低的成本提供更好的幻觉性能。
当前的RAG LLM在处理扩展上下文长度方面表现出显著的进步,同时又不牺牲质量或准确性。
较小的模型有时比较大的模型表现更好,这表明高效的设计比规模更重要。
米斯特拉尔 (Mistral) 的Mistral-large和阿里巴巴 (Alibaba) 的 qwen2-72b-instruct等美国以外表现强劲的企业的出现表明,全球范围内法学硕士 (LLM) 培养的竞争日益激烈。
虽然 Claude 3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型由于专有训练数据而保持领先地位,但该指数表明形势正在迅速变化。谷歌的表现尤其引人注目,其开源 Gemma-7b 模型表现不佳,而其闭源 Gemini 1.5 Flash 一直名列前茅。
随着人工智能行业继续努力解决幻觉问题,将其作为生产就绪的人工智能产品的主要障碍,伽利略的幻觉指数为希望采用适合其特定需求和预算限制的模型的企业提供了宝贵的见解。