新芒xAI 6月29日消息,据马斯克当地时间6月28日在社交平台披露,xAI最新一代大语言模型Grok 4.5已在SpaceX和特斯拉内部开启私测。
事实快讯
马斯克称,Grok 4.5基于约1.5万亿参数的V9基础模型打造,并在补充训练中加入了热门AI编程工具Cursor相关数据。按照其表述,早期评测结果显示,该模型表现已接近Anthropic旗舰模型Claude Opus,在部分任务上甚至可能超过Opus。
马斯克还表示,强化学习仍在持续改善Grok 4.5的能力,配套的“Grok Build”测试基准也在完善中。与此同时,SpaceX今年接下来每月都将发布一个完全从头开始训练的新模型。
关键要点
- Grok 4.5已进入SpaceX和特斯拉内部私测阶段,尚未面向外部用户全面开放。
- 模型训练叙事强调更大参数规模、编程数据补充训练,以及持续强化学习优化。
- 与Claude Opus的性能对比目前主要来自马斯克个人披露,仍需等待第三方公开基准和真实用户反馈验证。
- 若SpaceX确实保持每月发布从零训练模型的节奏,xAI与马斯克旗下产业体系之间的模型迭代会更紧密。
影响解读
Grok 4.5私测放在SpaceX和特斯拉内部,显示xAI正在优先把模型能力导入马斯克旗下高复杂度业务场景,包括工程研发、代码生成、数据分析和内部知识检索。这类封闭场景能更快形成高质量反馈,也可能帮助模型在编程和工程类任务上积累差异化优势。
不过,当前披露仍以个人发文为主,外部无法完整确认训练数据范围、基准设计、评测口径和与Claude Opus的可比性。对于模型竞争而言,真正的分水岭仍是开放后的稳定性、成本、长上下文表现、工具调用可靠性和安全边界。
新芒xAI评论
Grok 4.5若能在特斯拉、SpaceX这类真实工程体系中跑通,价值不只在参数规模,而在于模型能否进入高强度生产流程并稳定提升效率。对xAI而言,内部业务场景既是试验场,也是数据飞轮。
风险同样明显。第一,Cursor数据等补充训练来源容易引发版权、数据授权和模型同质化争议;第二,内部私测成绩不等于公开产品体验,企业环境中的定制数据和工具链可能放大模型表现;第三,快速迭代如果缺乏透明评测和安全审计,容易让市场高估短期能力。Grok 4.5值得关注,但仍需要公开、可复现的评测来证明其真实水平。