Jais (language model) — Jais(语言模型)
Jais(发音为“杰斯”)是一个开源的大型语言模型 (LLM)家族,在阿拉伯联合酋长国开发,并专门为阿拉伯语进行了优化[1]。该模型的名称来源于阿联酋的最高峰——杰贝勒·杰斯山 (Jebel Jais)[2]。
该项目由研究公司 Inception(科技集团 G42 的子公司)、穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 以及加利福尼亚的 AI 芯片公司 Cerebras Systems 合作创建[2]。Jais 以自由许可证公开发布,旨在激励阿拉伯语 AI 生态系统的发展,保护文化语言遗产,并使现代 AI 技术更容易为阿拉伯语世界所用[1]。
开发历史与版本发布
Jais 项目于2023年启动,其背景是现有 LLM 对非资源丰富型语言的支持有限。开发人员指出,市场缺乏能够同等出色地处理阿拉伯语和英语的高质量双语模型[2]。
Jais-13B - 第一个版本
第一个版本 Jais-13B 于 2023年8月30日 发布,包含 130亿个参数[1]。该模型在一个包含英语和阿拉伯语文本的混合语料库上进行训练,数据量为 3950亿个词元 (token)[3]。在发布时,它被称为“质量最高的阿拉伯语 LLM”[1]。
Jais-30B - 规模扩展
2023年11月8日,在不到三个月的时间里,该联盟推出了第二个显著改进的版本——拥有 300亿个参数 的 Jais-30B[4]。规模的扩大是为了解决更复杂的应用任务,如摘要和翻译。该模型在一个经过扩展和清理的数据集上进行训练,数据量为 1.63万亿个词元 (token)[4]。
Jais-70B - 模型家族
2024年8月6日,Inception (G42) 宣布推出旗舰模型 Jais-70B(700亿参数)以及一系列相关模型[5]。Jais-70B 成为当时最大的面向阿拉伯语的开源 LLM。其开发采用了持续训练 (continuous training)方法:并非从零开始训练,而是以 Meta 公司的 Llama 2 70B 模型为基础,使用 3300亿个阿拉伯语词元 (token) 进行继续训练。这使得模型能够有效地从 Llama 2 继承英语知识,并将资源集中于阿拉伯语的学习[5]。
架构与技术特点
Jais 属于基于 GPT-3 架构(仅解码器 (decoder-only))的自回归 Transformer 模型。该模型的一个关键特点是其专注于阿拉伯语和英语的双语能力,这与许多以英语为主的多语言 LLM 不同。这使其能够深入理解阿拉伯语及其方言[3]。
Jais 的创建集成了先进的技术解决方案[3]:
- ALiBi 位置编码:一种特殊的位置嵌入方案,使模型能够处理比训练时更长的上下文。
- SwiGLU 激活函数:一种能提高训练质量和神经网络层表达能力的激活函数。
- 最大更新参数化 (µP):一种超参数调整技术,可在模型规模增大时稳定训练过程。
- 专门的分词器 (Tokenizer):该分词器专为阿拉伯语和英语的特性而设计,与通用分词器相比,可将阿拉伯语文本的词元数量减少3-4倍,从而提高处理速度[6]。
除了基础模型(foundation models)外,还发布了 Jais-chat 版本,该版本在 960 万个问答对上进行了额外微调,以适应聊天机器人和助理任务[3]。
训练与数据集
该项目的主要任务之一是准备一个高质量、大规模的阿拉伯语文本语料库。Jais-13B 的最终训练集包含 3950亿个词元 (token),其中:
- 1160亿个词元 (29%) — 阿拉伯语文本。
- 2790亿个词元 (71%) — 英语文本和程序代码。
阿拉伯语部分被有意设定为较大比例(约30%),以确保模型对该语言的高质量掌握[3]。数据来源包括书籍、新闻文章、网页和源代码。为了增加高质量阿拉伯语文本的数量,还使用了对英语资源的机器翻译[3]。
模型训练在阿布扎比的 Condor Galaxy 1 (CG-1) 超级计算机上进行,该计算机由 G42 和 Cerebras Systems 联合开发。得益于此基础设施,Jais-13B 的纯训练时间仅为约3.5天[2]。
应用与意义
Jais 被定位为发展阿拉伯语及其他在现代 LLM 中代表性不足的语言社区的生成式 AI 的关键一步。模型的开源旨在促进中东和北非地区自然语言处理技术的应用。
自推出以来,该项目吸引了阿联酋政府和商业机构的兴趣。阿联酋外交部、阿布扎比国家石油公司 (ADNOC)、阿提哈德航空公司 (Etihad Airways) 和第一阿布扎比银行 (First Abu Dhabi Bank) 等机构获得了该模型的早期使用权[1]。2024年,微软宣布将 Jais 集成到其 Microsoft Azure 云平台,使其可供全球用户使用[6]。
Jais 的创建者强调了其在保护阿拉伯文化语言遗产方面的作用。据 Inception 执行董事 Andrew Jackson 所言,该项目旨在“确保拥有丰富遗产的阿拉伯语在 AI 领域中占有一席之地”[1]。他们计划利用积累的经验为其他语言和文化创建类似的 LLM[1]。
参考文献
- Shazeer, N.; et al. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Yang, G.; et al. (2022). Tensor Programs V: Tuning Large Neural Networks via Zero‑Shot Hyperparameter Transfer. arXiv:2203.03466.
- Ali, A. R.; et al. (2022). A Large and Diverse Arabic Corpus for Language Modeling. arXiv:2201.09227.
- Sengupta, N.; et al. (2023). Jais and Jais‑chat: Arabic‑Centric Foundation and Instruction‑Tuned Open Generative Large Language Models. arXiv:2308.16149.
- Inception AI (2024). JAIS 30B Whitepaper. Online whitepaper.
- Koto, F.; et al. (2024). ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic. arXiv:2402.12840.
- Qian, Z.; et al. (2024). CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks. arXiv:2409.12623.
- Blake, C.; et al. (2024). u‑μP: The Unit‑Scaled Maximal Update Parametrization. arXiv:2407.17465.
- Inception AI; MBZUAI; Cerebras Systems (2024). Jais Family Model Card. Hugging Face.
注释
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 “Meet "Jais", The World's Most Advanced Arabic Large Language Model Open Sourced by G42's Inception”. Cerebras Systems. [1]
- ↑ 2.0 2.1 2.2 2.3 “UAE's G42 launches open source Arabic language AI model”. Reuters. [2]
- ↑ 3.0 3.1 3.2 3.3 3.4 3.5 “[2308.16149] Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models”. arXiv. [3]
- ↑ 4.0 4.1 “Upgraded Arabic large language model is twice as big”. Computer Weekly. [4]
- ↑ 5.0 5.1 “G42 launches JAIS 70B and 20 other AI models to advance Arabic natural language processing”. Abu Dhabi Media Office. [5]
- ↑ 6.0 6.1 “Introducing JAIS: Arabic-centric Large Language Model on Azure”. Microsoft Tech Community. [6]