IBM Granite (language model) — IBM Granite 模型

IBM Granite 是一系列由IBM公司为企业环境应用而开发的大型语言模型（LLM）。Granite 模型是仅包含解码器（decoder-only）架构的自回归 Transformer 模型，能够根据给定上下文生成文本^[1]。

该模型系列于2023年9月7日，作为 IBM watsonx.ai 云平台发布的一部分被正式推出^[2]。IBM 将 Granite 定位为面向企业的开放、高性能且可靠的解决方案，重点强调训练数据的透明度、风险控制以及允许商业用途的许可协议^[3]。

开发历史

Granite 模型系列是 IBM 战略的一部分，旨在与合作伙伴的模型一起，为企业提供自有的生成式模型。

2023年9月：在 watsonx.ai 平台上正式发布并推出了首批模型。首批发布的模型 Granite.13b.instruct 和 Granite.13b.chat 拥有约130亿参数，专注于关键的语言处理任务^[2]。
2024年5月：IBM 宣布在 Apache 2.0 许可下开源多个 Granite Code 模型（参数量从30亿到340亿不等）。模型权重发布在 Hugging Face 平台上，这是支持开放 AI 生态系统的重要一步^[4]。
2024年秋季：IBM 发布了 Granite 3.0 更新，其中包括更小尺寸的模型（20亿和80亿参数）和新功能，再次确认了其扩展该模型系列的方针^[5]。

架构与训练

架构

IBM Granite 模型基于解码器 Transformer（decoder-only）架构构建，类似于 GPT 模型。基础模型 Granite.13b 采用多查询注意力（multi-query attention）机制，上下文窗口大小可达8000个 token^[6]。这些模型通过自监督学习（self-supervised learning）进行训练。

训练数据与 AI 治理

Granite 的一个关键特点是使用了为满足企业需求而精心筛选的专有数据集。与许多在未经过滤的网络数据上训练的 LLM 不同，Granite 在高质量（enterprise-quality）数据上进行训练，涵盖以下领域^[6]：

学术与科学数据：科学文献、技术出版物。
程序代码：多种编程语言的大量代码。
法律：法院判决、公开报告。
金融：公司的财务报告。
互联网：经过筛选的通用非结构化文本。

IBM 强调，其开发过程遵循了严格的AI 治理（AI Governance，即伦理与数据管理）原则。每一部分数据都经过了符合公司政策的审查程序。为了移除不良内容，IBM 使用了内部的“HAP”（Hate and Profanity，仇恨与亵渎）检测器，以及自动化的网站黑名单^[1]。IBM 发布了一份详细的技术报告，其中列出了数据来源，这对于大型科技公司而言是罕见之举，确保了高度的透明度。

Granite 模型系列

IBM Granite 模型系列涵盖了多个类别的模型，以应对不同的业务任务：

语言模型（Granite Language Models）：用于文本处理任务（如生成、摘要、分类等）的基础模型和指令微调模型。
代码模型（Granite Code Models）：专门的 LLM，在超过100种编程语言上进行训练，用于代码自动补全、生成和修复。模型大小从30亿到340亿参数不等^[4]。
视觉模型（Granite Vision Models）：用于分析图像和文档、识别文本及理解内容的神经网络。
语音模型（Granite Speech Models）：用于语音识别和翻译的紧凑型模型。
时间序列模型（Granite for Time Series）：用于基于时间序列进行预测的专门模型。
地理空间模型（Granite for Geospatial）：与 NASA 合作开发，用于分析卫星图像和其他地理空间数据。
嵌入模型（Granite Embedding Models）：用于语义搜索和构建 RAG 系统的模型。
Granite Guardian：一个专门用于保障安全的模块，旨在过滤不良请求和监控内容。

开源与许可

IBM 非常强调 Granite 系列的开放性，将其定位为封闭专有 LLM 的透明替代品。2024年5月，该公司在 Apache 2.0 许可下向开源社区发布了 Granite Code 基础模型，允许自由使用、修改和分发^[4]。

这一举措，连同其发布的详细训练数据信息，为 IBM 赢得了研究界的高度评价。2024年，该模型在斯坦福大学的基础模型透明度指数中名列前茅^[3]。

应用

Granite 模型已集成到 IBM watsonx 云平台中，并应用于各种企业场景。

体育分析（US Open）：IBM 与美国网球协会（USTA）合作，在US Open锦标赛上使用 Granite 为每场比赛自动生成比赛报告和音频评论。该解决方案能在比赛结束后几分钟内生成详细的文本回顾^[7]。
辅助编程：Granite Code 模型是 IBM watsonx Code Assistant 的核心，这是一套工具集，例如，它可以自动将过时的 COBOL 代码转换为适用于 IBM Z 的现代微服务^[4]。
行业 AI 应用：洛克希德·马丁公司（Lockheed Martin）已将 Granite 模型集成到其 AI Factory 平台中，用于国家安全任务。ESPN 则使用 Granite 在梦幻体育（fantasy sports）中生成个性化评论^[3]。

参考文献

Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
Awasthy, P. et al. (2025). Granite Embedding Models. arXiv:2502.20204.
Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Granite Vision Team (2025). Granite Vision: A Lightweight, Open‑Source Multimodal Model for Enterprise Intelligence. arXiv:2502.09927.
Mishra, M. et al. (2024). Granite Code Models: A Family of Open Foundation Models for Code Intelligence. arXiv:2405.04324.
Padhi, I. et al. (2024). Granite Guardian: Risk Detection for Safe and Responsible Use of LLMs. arXiv:2412.07724.
Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
Stallone, M. et al. (2024). Scaling Granite Code Models to 128K Context. arXiv:2407.13739.

注释

↑ ^1.0 ^1.1 “Building AI for business: IBM's Granite foundation models”. IBM Blog. [1]
↑ ^2.0 ^2.1 Lardinois, Frederic (7 сентября 2023). “IBM rolls out new generative AI features and models”. TechCrunch. [2]
↑ ^3.0 ^3.1 ^3.2 “Granite”. IBM. [3]
↑ ^4.0 ^4.1 ^4.2 ^4.3 “IBM's Granite code model family is going open source”. IBM Research Blog. [4]
↑ “Granite 3.3 Language Models - a ibm-granite Collection”. Hugging Face. [5]
↑ ^6.0 ^6.1 “Granite Foundation Models: Technical Specifications”. IBM. [6]
↑ “IBM and the USTA Serve Up New and Enhanced Generative AI Features for 2024 US Open Digital Platforms”. IBM Newsroom. [7]

[ibm_blog_building-1] 1.0 ^1.1 “Building AI for business: IBM's Granite foundation models”. IBM Blog. [1]

[techcrunch_2023-2] 2.0 ^2.1 Lardinois, Frederic (7 сентября 2023). “IBM rolls out new generative AI features and models”. TechCrunch. [2]

[granite_main_page-3] 3.0 ^3.1 ^3.2 “Granite”. IBM. [3]

[ibm_code_open-4] 4.0 ^4.1 ^4.2 ^4.3 “IBM's Granite code model family is going open source”. IBM Research Blog. [4]

[granite3_huggingface-5] “Granite 3.3 Language Models - a ibm-granite Collection”. Hugging Face. [5]

[granite_tech_doc-6] 6.0 ^6.1 “Granite Foundation Models: Technical Specifications”. IBM. [6]

[usopen_2024-7] “IBM and the USTA Serve Up New and Enhanced Generative AI Features for 2024 US Open Digital Platforms”. IBM Newsroom. [7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

IBM Granite (language model) — IBM Granite 模型

Contents

开发历史

架构与训练

架构

训练数据与 AI 治理

Granite 模型系列

开源与许可

应用

参考文献

注释

Navigation menu

IBM Granite (language model) — IBM Granite 模型

开发历史

架构与训练

架构

训练数据与 AI 治理

Granite 模型系列

开源与许可

应用

参考文献

注释

Navigation menu

Search