IBM Granite (language model) — IBM Granite 模型
IBM Granite 是一系列由IBM公司为企业环境应用而开发的大型语言模型(LLM)。Granite 模型是仅包含解码器(decoder-only)架构的自回归 Transformer 模型,能够根据给定上下文生成文本[1]。
该模型系列于2023年9月7日,作为 IBM watsonx.ai 云平台发布的一部分被正式推出[2]。IBM 将 Granite 定位为面向企业的开放、高性能且可靠的解决方案,重点强调训练数据的透明度、风险控制以及允许商业用途的许可协议[3]。
开发历史
Granite 模型系列是 IBM 战略的一部分,旨在与合作伙伴的模型一起,为企业提供自有的生成式模型。
- 2023年9月:在 watsonx.ai 平台上正式发布并推出了首批模型。首批发布的模型 Granite.13b.instruct 和 Granite.13b.chat 拥有约130亿参数,专注于关键的语言处理任务[2]。
- 2024年5月:IBM 宣布在 Apache 2.0 许可下开源多个 Granite Code 模型(参数量从30亿到340亿不等)。模型权重发布在 Hugging Face 平台上,这是支持开放 AI 生态系统的重要一步[4]。
- 2024年秋季:IBM 发布了 Granite 3.0 更新,其中包括更小尺寸的模型(20亿和80亿参数)和新功能,再次确认了其扩展该模型系列的方针[5]。
架构与训练
架构
IBM Granite 模型基于解码器 Transformer(decoder-only)架构构建,类似于 GPT 模型。基础模型 Granite.13b 采用多查询注意力(multi-query attention)机制,上下文窗口大小可达8000个 token[6]。这些模型通过自监督学习(self-supervised learning)进行训练。
训练数据与 AI 治理
Granite 的一个关键特点是使用了为满足企业需求而精心筛选的专有数据集。与许多在未经过滤的网络数据上训练的 LLM 不同,Granite 在高质量(enterprise-quality)数据上进行训练,涵盖以下领域[6]:
- 学术与科学数据:科学文献、技术出版物。
- 程序代码:多种编程语言的大量代码。
- 法律:法院判决、公开报告。
- 金融:公司的财务报告。
- 互联网:经过筛选的通用非结构化文本。
IBM 强调,其开发过程遵循了严格的AI 治理(AI Governance,即伦理与数据管理)原则。每一部分数据都经过了符合公司政策的审查程序。为了移除不良内容,IBM 使用了内部的“HAP”(Hate and Profanity,仇恨与亵渎)检测器,以及自动化的网站黑名单[1]。IBM 发布了一份详细的技术报告,其中列出了数据来源,这对于大型科技公司而言是罕见之举,确保了高度的透明度。
Granite 模型系列
IBM Granite 模型系列涵盖了多个类别的模型,以应对不同的业务任务:
- 语言模型(Granite Language Models):用于文本处理任务(如生成、摘要、分类等)的基础模型和指令微调模型。
- 代码模型(Granite Code Models):专门的 LLM,在超过100种编程语言上进行训练,用于代码自动补全、生成和修复。模型大小从30亿到340亿参数不等[4]。
- 视觉模型(Granite Vision Models):用于分析图像和文档、识别文本及理解内容的神经网络。
- 语音模型(Granite Speech Models):用于语音识别和翻译的紧凑型模型。
- 时间序列模型(Granite for Time Series):用于基于时间序列进行预测的专门模型。
- 地理空间模型(Granite for Geospatial):与 NASA 合作开发,用于分析卫星图像和其他地理空间数据。
- 嵌入模型(Granite Embedding Models):用于语义搜索和构建 RAG 系统的模型。
- Granite Guardian:一个专门用于保障安全的模块,旨在过滤不良请求和监控内容。
开源与许可
IBM 非常强调 Granite 系列的开放性,将其定位为封闭专有 LLM 的透明替代品。2024年5月,该公司在 Apache 2.0 许可下向开源社区发布了 Granite Code 基础模型,允许自由使用、修改和分发[4]。
这一举措,连同其发布的详细训练数据信息,为 IBM 赢得了研究界的高度评价。2024年,该模型在斯坦福大学的基础模型透明度指数中名列前茅[3]。
应用
Granite 模型已集成到 IBM watsonx 云平台中,并应用于各种企业场景。
- 体育分析(US Open):IBM 与美国网球协会(USTA)合作,在US Open锦标赛上使用 Granite 为每场比赛自动生成比赛报告和音频评论。该解决方案能在比赛结束后几分钟内生成详细的文本回顾[7]。
- 辅助编程:Granite Code 模型是 IBM watsonx Code Assistant 的核心,这是一套工具集,例如,它可以自动将过时的 COBOL 代码转换为适用于 IBM Z 的现代微服务[4]。
- 行业 AI 应用:洛克希德·马丁公司(Lockheed Martin)已将 Granite 模型集成到其 AI Factory 平台中,用于国家安全任务。ESPN 则使用 Granite 在梦幻体育(fantasy sports)中生成个性化评论[3]。
参考文献
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Awasthy, P. et al. (2025). Granite Embedding Models. arXiv:2502.20204.
- Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Granite Vision Team (2025). Granite Vision: A Lightweight, Open‑Source Multimodal Model for Enterprise Intelligence. arXiv:2502.09927.
- Mishra, M. et al. (2024). Granite Code Models: A Family of Open Foundation Models for Code Intelligence. arXiv:2405.04324.
- Padhi, I. et al. (2024). Granite Guardian: Risk Detection for Safe and Responsible Use of LLMs. arXiv:2412.07724.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Stallone, M. et al. (2024). Scaling Granite Code Models to 128K Context. arXiv:2407.13739.
注释
- ↑ 1.0 1.1 “Building AI for business: IBM's Granite foundation models”. IBM Blog. [1]
- ↑ 2.0 2.1 Lardinois, Frederic (7 сентября 2023). “IBM rolls out new generative AI features and models”. TechCrunch. [2]
- ↑ 3.0 3.1 3.2 “Granite”. IBM. [3]
- ↑ 4.0 4.1 4.2 4.3 “IBM's Granite code model family is going open source”. IBM Research Blog. [4]
- ↑ “Granite 3.3 Language Models - a ibm-granite Collection”. Hugging Face. [5]
- ↑ 6.0 6.1 “Granite Foundation Models: Technical Specifications”. IBM. [6]
- ↑ “IBM and the USTA Serve Up New and Enhanced Generative AI Features for 2024 US Open Digital Platforms”. IBM Newsroom. [7]