1/8成本比肩Claude 3.7,Mistral Medium 3来了

用1/8成本比肩Claude 3.7,刚刚,“欧洲OpenAI”Mistral AI发布多模态新模型。

MistralMedium3,主打编程和多模态理解,且在性能和成本间进行了平衡。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

官方称,在各类基准测试中,Mistral Medium 3性能达到或超越Claude Sonnet 3.7的90%,且成本大大降低。

Claude 3.7 Sonnet的价格为每百万输入token 3美元,每百万输出token 15美元,而Mistral Medium 3:

每百万输入token仅0.4美元,每百万输出token 2美元

整体性能,不管是和领先开源模型Llama 4 Maverick还是和企业级模型Cohere Command A相比,Mistral Medium 3都能打得有来有回。

目前,Mistral Medium 3 API已在Mistral La Plateforme和Amazon Sagemaker上线,不久后还将在IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex上推出。

具备一系列企业级能力

下面具体来看看基准测试。

Mistral Medium 3在编程和STEM任务中尤为突出。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

官方原话是“其性能甚至接近非常大且运行速度慢得多的竞争对手”。

不过呢,既不开放模型权重,也没有透露模型大小

1/8成本比肩Claude 3.7,Mistral Medium 3来了

另外,Mistral AI还发布了第三方人类评估。

人类评估中,Mistral Medium 3依旧是在编程方面占优势。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

在多模态和其他人语言任务中,相比Llama 4 Maverick,Mistral Medium 3的表现也占上风。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

除了测试数据之外,官方还特别强调了其适应企业环境的能力,包括:

  • 混合部署或本地 / 虚拟私有云(VPC)内部署
  • 定制化后期训练
  • 与企业工具和系统集成

企业可以轻松将智能全面集成到系统中,借助Mistral的应用AI解决方案,该模型可以持续进行预训练、全面微调,并融入企业知识库,使其成为针对特定领域训练、持续学习和自适应工作流程的高保真解决方案。

官方称,金融服务、能源和医疗保健领域的客户正在使用该模型测试,通过深入的背景信息来丰富客户服务、实现业务流程的个性化,并对复杂的数据集进行分析。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

另外,他们还推出了Le Chat Enterprise,这是一项面向企业的聊天机器人服务,提供了AI Agent建造器之类的工具,并将Mistral的模型与Gmail、Google Drive、SharePoint等第三方服务集成。

据了解,Le Chat Enterprise将很快支持 MCP。

Mistral Medium 3发布后引发大批网友关注,有网友为其“高性价比”点赞。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

不过也有不少网友吐槽模型没说开源结果又高调地和开源模型比较,有点奇怪。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

还有行动派网友,想看什么自己比较。

StabilityAI创始人翻出了Gemini 2.5 Flash的基准测试结果:

1/8成本比肩Claude 3.7,Mistral Medium 3来了

看后表示:

1/8成本比肩Claude 3.7,Mistral Medium 3来了

One More Thing

继三月份推出Mistral Small、今日推出Mistral Medium后,Mistral AI透露接下来几周正着手开发“大型”项目。

1/8成本比肩Claude 3.7,Mistral Medium 3来了

[1]https://mistral.ai/news/mistral-medium-3
[2]https://x.com/MistralAI/status/1920119463430500541
[3]https://techcrunch.com/2025/05/07/mistral-claims-its-newest-ai-model-delivers-leading-performance-for-the-price/

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/11855.html

(0)
人脑网的头像人脑网
上一篇 2025年5月8日 下午3:56
下一篇 2025年5月8日 下午3:57

相关推荐

  • 大模型玩不好数独?排行榜:o3 Mini High变异数独正确率仅2.9%

    大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜 问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4×4到复杂的9&…

    2025年5月28日
    100
  • AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%

    如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准…

    2025年5月24日
    700
  • 开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

    终于!当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生…

    2025年5月29日
    100
  • 奥特曼最新访谈暗示:OpenAI终极目标是打造订阅制AI服务

    这是奥特曼刚刚在红杉资本的“AI Ascent 2025”活动中的谈话内容,并称其为OpenAI的柏拉图式理想,甚至他说其余的任何东西都可以为之让路。 他认为未来的AI模型将涵盖用户一生的数据,实现个性化推理: 听起来是不是很罗曼蒂克?但奥特曼本人也坦率承认,这个计划目前还处于“PPT”阶段,明年要构建的产品可能甚至都还没有开始考虑。 不过他相当满意这种状态…

    2025年5月15日
    700
  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网…

    2025年5月20日
    700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信