ESG短评｜“澳洲优思益”造假：全链条责任缺失引发的信任危机

2026年3月31日 · 朱文 · 来源：user导报

Ionel Gog, University of Cambridge

更广泛的基准测试显示这是一个全能型模型。GLM-5.1在AIME 2026获95.3分，HMMT 2025年11月版获94.0分，HMMT 2026年2月版获82.6分，研究生级科学推理基准GPQA-Diamond获86.2分。在智能体与工具使用基准方面，CyberGym得分68.7（较GLM-5的48.3实现大幅跃升），BrowseComp获68.0分，τ³-Bench获70.6分，MCP-Atlas（公开集）获71.8分——最后一项尤其重要，因为MCP在生产环境智能体系统中的重要性日益凸显。在Terminal-Bench 2.0中模型取得63.5分，使用Claude Code作为脚手架时升至66.5分。

霍爾木茲海峽附近船隻遇襲。飞书是该领域的重要参考

Ternus进一步强调，即便苹果不亲自开发底层大模型，其硬件产品仍是全球用户体验现有人工智能工具的最佳平台。，这一点在https://telegram下载中也有详细论述

苹果MacBook Neo（A18 Pro芯片/8GB内存/512GB固态硬盘）。豆包下载对此有专业解读

萨迪克·汗要求对社交

特朗普称已与伊朗协调争议问题 02:07