Grok (xAI) — Grok(xAI 的大语言模型)
Grok 是由埃隆·马斯克创立的公司 xAI 开发的一个多模态大型语言模型(LLM)家族和聊天机器人。Grok 定位为一款“前沿模型”,旨在“理解宇宙的真实本质”,并为现有的人工智能系统提供一种替代方案。马斯克认为,现有的人工智能系统“过于政治正确”[1][2]。
Grok 的主要特点是与社交网络 X 深度集成以获取实时信息,以及其宣称的“叛逆”风格——回答中带有幽默和讽刺元素,这使其与更为谨慎的竞争对手区别开来[3]。Grok 的技术基础包括用于其首个版本的 Mixture-of-Experts (MoE) 架构,以及后续版本在世界最大的超级计算机之一——Colossus——上的训练。
历史与发展
Grok 家族的发展速度极快——从原型到与市场领导者竞争的旗舰模型,用时不到两年。
- 2023年7月-10月:xAI 成立并加速原型开发。据马斯克称,第一个版本的训练仅用了两个月[4]。
- 2023年11月:Grok-1 的早期 Beta 版发布。X Premium+ 的高级订阅用户获得了访问权限。该模型被定位为“一个非常早期的产品”,具有非传统的回答风格[5]。
- 2024年3月:xAI 以 Apache 2.0 许可证发布了 Grok-1 的源代码和权重,使其成为当时拥有 3140 亿参数的最大开源 LLM[6]。月底,发布了 Grok-1.5,其推理能力得到提升,上下文窗口扩大到 128,000 个 token[7]。
- 2024年4月:推出了首个多模态版本 Grok-1.5 Vision,能够分析图像和文档。该模型在 RealWorldQA 基准测试中表现优于 GPT-4V,但未公开发布[8]。
- 2024年8月:发布 Grok-2 及其轻量版 Grok-2 mini。主要创新是使用 FLUX.1 模型进行图像生成。用户指出,Grok-2 生成图像的限制比竞争对手少(例如,可以绘制真实政治人物)[9][10]。
- 2024年秋季:Grok-2 获得一系列更新:图像理解(10月)、网络搜索(11月)和 PDF 文件分析(11月)。12月,xAI 引入了自家的图像生成模型 Aurora[8]。所有 X 用户均可部分免费使用该聊天机器人[11]。
- 2025年2月:旗舰模型 Grok-3 发布。据 xAI 称,该模型在超级计算机 Colossus 上训练,并在多项复杂测试(如 AIME 2025)中超越了 GPT-4。引入了独特的模式,如“Think”(深度推理)和 DeepSearch(增强型网络搜索)[12]。
- 2025年春季:xAI 扩大了 Grok-3 的可用性,为开发者开放了 API,并宣布将其集成到微软 Azure 云平台和即时通讯应用 Telegram 中[13][14]。
技术特点与架构
架构与参数
第一个版本 Grok-1 基于专家混合(Mixture-of-Experts, MoE)架构构建,总参数量为 3140 亿。该模型由 8 个专家组成,每个 token 会激活其中的 2 个,这使其在同等规模下计算效率很高[15]。初始模型的最大上下文为 8192 个 token。
随后的版本 Grok-1.5 和 Grok-3 实现了显著的演进。上下文窗口在 Grok-1.5 中增加到 128,000 个 token,在 Grok-3 中增加到 100 万个 token,这是业界最高的指标之一[16]。Grok-3 的确切参数数量尚未披露,但据一些估计,可能高达 2.7 万亿[17]。
多模态与推理
从 Grok-1.5V 开始,模型实现了多模态。Grok-3 支持完整的视觉交互周期:理解图像、根据文本描述编辑图像以及生成新图像。
xAI 特别注重提升推理(reasoning)能力。Grok-2 引入了自主搜索缺失信息的机制。在 Grok-3 中,这一方法发展为 “Think” 模式(也称为Big Brain Mode)。激活该模式后,模型会进行额外的计算,生成多种解决方案,使用更长的思维链(Chain-of-Thought),并进行自我矛盾检查。这使用户可以在快速回答和更准确但较慢的回答之间进行选择[18]。
训练与数据
Grok 的训练数据结合了公开数据(互联网、代码、文献)和埃隆·马斯克生态系统中的独有数据。其关键组成部分是来自 X (Twitter) 的持续数据流,这确保了模型的时效性和对当前事件的了解。数据集中还包括法律和科学文本[8]。这种方法一方面为 Grok 带来了优势,另一方面也引发了监管机构对用户数据隐私的担忧[19]。
与竞争对手的比较
| 特性 | Grok (xAI) | GPT (OpenAI) | Claude (Anthropic) | Gemini (Google) |
|---|---|---|---|---|
| 主要优势 | 与 X 集成、时效性、“叛逆”风格 | 高质量和稳定的回答、成熟的生态系统 | 安全性、大上下文、注重伦理 | 与谷歌生态系统集成、多模态 |
| 最大上下文 | 1,000,000 token (Grok-3) | 128,000 token (GPT-4o) | 200,000+ token (Claude 3) | 2,000,000 token (Gemini 2.0 Pro) |
| 图像生成 | 是 (内置,Aurora 模型) | 是 (通过 DALL·E 3) | 否 | 是 (Imagen 模型) |
| 许可证 | 混合型 (Grok-1 开源,新版本为专有) | 专有 | 专有 | 专有 |
| 实时访问 | 是 (通过 X 和网络搜索原生支持) | 是 (通过插件/网页浏览) | 否 (基础版) | 是 (通过谷歌搜索原生支持) |
集成与生态系统
xAI 的策略是让 Grok 成为无处不在的 AI 助手。
- X 平台: Grok 的主要使用平台,用于回答问题、总结新闻和内容审核。
- Telegram: 2025年宣布将 Grok 全面集成到该即时通讯应用中,这将使超过十亿用户能够使用该 AI。该交易价值 3 亿美元外加 50% 的利润分成[20]。
- 特斯拉 (Tesla): 计划将 Grok作为“智能语音助手”集成到所有特斯拉汽车中。该助手将能够访问车辆系统,执行复杂指令,理解自然语言,并提供来自互联网的信息[21]。
- API 与合作伙伴: Grok-3 通过 API 向开发者开放,并已集成到流行的开发工具(Vercel、Cursor)和自动化平台(Zapier、Albato)中[22]。
发布年表(表格)
| 模型 | 发布日期 | 模型参数 | 主要特点 | 可用性与许可证 |
|---|---|---|---|---|
| Grok-1 | 2023年11月3日 (2024年3月17日开源) |
3140 亿 (MoE) | 第一个版本,MoE 架构,8k token 上下文。 | X Premium+ 用户可早期访问。后以 Apache 2.0 许可证开源。 |
| Grok-1.5 | 宣布:2024年3月29日 (2024年5月15日起可用) |
~3140 亿 | 增强的推理能力,128,000 token 上下文,在 GSM8K 上得分高达 90%。 | 专有。X Premium 订阅者可用。 |
| Grok-1.5 Vision | 宣布:2024年4月12日 | ~3140 亿 + 视觉模块 | 第一个多模态版本,可理解图像和图表。 | 未公开发布。其成果被用于 Grok-2。 |
| Grok-2 | 2024年8月14日 | 未披露 | 改进了聊天和编码能力,图像生成(通过 Flux.1,后改为 Aurora),增强了多模态能力。 | 专有。X Premium+ 用户可用,后部分免费。 |
| Grok-3 | 2025年2月17日 | ~2.7 万亿 (估计) | 旗舰模型,100 万 token 上下文,“Think” 和 “DeepSearch” 模式,图像编辑功能。 | 专有。通过 X Premium+、SuperGrok 和 API 访问。 |
文献
- Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely‑Gated Mixture‑of‑Experts Layer. arXiv:1701.06538.
- Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Fedus, W. et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Wei, J. et al. (2022). Chain‑of‑Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
- Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
- Li, K. et al. (2024). MME‑RealWorld: Could Your Multimodal LLM Challenge High‑Fidelity Real‑World Data?. arXiv:2408.13257.
- Batifol, S. et al. (2025). FLUX.1 Kontext: Flow Matching for In‑Context Image Generation and Editing in Latent Space. arXiv:2506.15742.
- Tran, P. et al. (2025). Search Arena: Analyzing Search‑Augmented Large Language Models. arXiv:2506.05334.
- Suzuki, T.; Ozawa, K. (2025). Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision‑Language Models. arXiv:2504.09979.
注释
- ↑ “What is Elon Musk's Grok 3?”. LinkedIn. [1]
- ↑ “"Grok, это правда?": насколько можно доверять чат-ботам с ИИ”. Deutsche Welle. [2]
- ↑ “Grok, an AI chatbot from Elon Musk’s xAI, is coming to X”. TechCrunch. [3]
- ↑ “Маск признался, что на тренировку нейросети Grok ушло два месяца”. РБК. [4]
- ↑ “Grok (chatbot)”. Wikipedia. [5]
- ↑ “Grok open release”. GitHub. [6]
- ↑ “xAI анонсировала ИИ-модель Grok-1.5”. Habr. [7]
- ↑ 8.0 8.1 8.2 “Grok (чат-бот)”. Википедия. [8]
- ↑ “xAI releases Grok-2, adds image generation on X”. TechCrunch. [9]
- ↑ “Grok-2's image generator has no content rules, for now”. Mashable. [10]
- ↑ “Grok-3: Everything you need to know about this new LLM by xAI”. Daily.dev. [11]
- ↑ “Grok-3 Release”. xAI News. [12]
- ↑ “Grok 3, xAI's latest model, is now available on the API”. xAI Blog. [13]
- ↑ “Дуров и Маск договорились о полной интеграции Grok в Telegram”. РБК. [14]
- ↑ “GitHub - xai-org/grok-1: Grok open release”. GitHub. [15]
- ↑ “Grok-3”. xAI. [16]
- ↑ “Visual Reasoning Evaluation of Grok, Deepseek's Janus, Gemini, Qwen, Mistral, and ChatGPT”. arXiv. [17]
- ↑ “Grok-3 Functions”. xAI Blog. [18]
- ↑ “Irish DPC probes X and xAI over Grok training data”. TechCrunch. [19]
- ↑ “Telegram и xAI Илона Маска заключили стратегическое партнерство”. Sostav.ru. [20]
- ↑ “All Tesla Vehicles to Receive Grok Smart Voice Assistant According to Musk”. Not a Tesla App. [21]
- ↑ “Grok by xAI Integrations”. Zapier. [22]