Jais (language model) — Jais(语言模型)

From Systems analysis wiki
Jump to navigation Jump to search

Jais(发音为“杰斯”)是一个开源的大型语言模型 (LLM)家族,在阿拉伯联合酋长国开发,并专门为阿拉伯语进行了优化[1]。该模型的名称来源于阿联酋的最高峰——杰贝勒·杰斯山 (Jebel Jais)[2]

该项目由研究公司 Inception(科技集团 G42 的子公司)、穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 以及加利福尼亚的 AI 芯片公司 Cerebras Systems 合作创建[2]。Jais 以自由许可证公开发布,旨在激励阿拉伯语 AI 生态系统的发展,保护文化语言遗产,并使现代 AI 技术更容易为阿拉伯语世界所用[1]

开发历史与版本发布

Jais 项目于2023年启动,其背景是现有 LLM 对非资源丰富型语言的支持有限。开发人员指出,市场缺乏能够同等出色地处理阿拉伯语和英语的高质量双语模型[2]

Jais-13B - 第一个版本

第一个版本 Jais-13B2023年8月30日 发布,包含 130亿个参数[1]。该模型在一个包含英语和阿拉伯语文本的混合语料库上进行训练,数据量为 3950亿个词元 (token)[3]。在发布时,它被称为“质量最高的阿拉伯语 LLM”[1]

Jais-30B - 规模扩展

2023年11月8日,在不到三个月的时间里,该联盟推出了第二个显著改进的版本——拥有 300亿个参数Jais-30B[4]。规模的扩大是为了解决更复杂的应用任务,如摘要和翻译。该模型在一个经过扩展和清理的数据集上进行训练,数据量为 1.63万亿个词元 (token)[4]

Jais-70B - 模型家族

2024年8月6日,Inception (G42) 宣布推出旗舰模型 Jais-70B(700亿参数)以及一系列相关模型[5]。Jais-70B 成为当时最大的面向阿拉伯语的开源 LLM。其开发采用了持续训练 (continuous training)方法:并非从零开始训练,而是以 Meta 公司的 Llama 2 70B 模型为基础,使用 3300亿个阿拉伯语词元 (token) 进行继续训练。这使得模型能够有效地从 Llama 2 继承英语知识,并将资源集中于阿拉伯语的学习[5]

架构与技术特点

Jais 属于基于 GPT-3 架构(仅解码器 (decoder-only))的自回归 Transformer 模型。该模型的一个关键特点是其专注于阿拉伯语和英语的双语能力,这与许多以英语为主的多语言 LLM 不同。这使其能够深入理解阿拉伯语及其方言[3]

Jais 的创建集成了先进的技术解决方案[3]

  • ALiBi 位置编码:一种特殊的位置嵌入方案,使模型能够处理比训练时更长的上下文。
  • SwiGLU 激活函数:一种能提高训练质量和神经网络层表达能力的激活函数。
  • 最大更新参数化 (µP):一种超参数调整技术,可在模型规模增大时稳定训练过程。
  • 专门的分词器 (Tokenizer):该分词器专为阿拉伯语和英语的特性而设计,与通用分词器相比,可将阿拉伯语文本的词元数量减少3-4倍,从而提高处理速度[6]

除了基础模型(foundation models)外,还发布了 Jais-chat 版本,该版本在 960 万个问答对上进行了额外微调,以适应聊天机器人和助理任务[3]

训练与数据集

该项目的主要任务之一是准备一个高质量、大规模的阿拉伯语文本语料库。Jais-13B 的最终训练集包含 3950亿个词元 (token),其中:

  • 1160亿个词元 (29%) — 阿拉伯语文本。
  • 2790亿个词元 (71%) — 英语文本和程序代码。

阿拉伯语部分被有意设定为较大比例(约30%),以确保模型对该语言的高质量掌握[3]。数据来源包括书籍、新闻文章、网页和源代码。为了增加高质量阿拉伯语文本的数量,还使用了对英语资源的机器翻译[3]

模型训练在阿布扎比的 Condor Galaxy 1 (CG-1) 超级计算机上进行,该计算机由 G42 和 Cerebras Systems 联合开发。得益于此基础设施,Jais-13B 的纯训练时间仅为约3.5天[2]

应用与意义

Jais 被定位为发展阿拉伯语及其他在现代 LLM 中代表性不足的语言社区的生成式 AI 的关键一步。模型的开源旨在促进中东和北非地区自然语言处理技术的应用。

自推出以来,该项目吸引了阿联酋政府和商业机构的兴趣。阿联酋外交部、阿布扎比国家石油公司 (ADNOC)、阿提哈德航空公司 (Etihad Airways) 和第一阿布扎比银行 (First Abu Dhabi Bank) 等机构获得了该模型的早期使用权[1]。2024年,微软宣布将 Jais 集成到其 Microsoft Azure 云平台,使其可供全球用户使用[6]

Jais 的创建者强调了其在保护阿拉伯文化语言遗产方面的作用。据 Inception 执行董事 Andrew Jackson 所言,该项目旨在“确保拥有丰富遗产的阿拉伯语在 AI 领域中占有一席之地”[1]。他们计划利用积累的经验为其他语言和文化创建类似的 LLM[1]

参考文献

  • Shazeer, N.; et al. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
  • Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
  • Yang, G.; et al. (2022). Tensor Programs V: Tuning Large Neural Networks via Zero‑Shot Hyperparameter Transfer. arXiv:2203.03466.
  • Ali, A. R.; et al. (2022). A Large and Diverse Arabic Corpus for Language Modeling. arXiv:2201.09227.
  • Sengupta, N.; et al. (2023). Jais and Jais‑chat: Arabic‑Centric Foundation and Instruction‑Tuned Open Generative Large Language Models. arXiv:2308.16149.
  • Inception AI (2024). JAIS 30B Whitepaper. Online whitepaper.
  • Koto, F.; et al. (2024). ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic. arXiv:2402.12840.
  • Qian, Z.; et al. (2024). CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks. arXiv:2409.12623.
  • Blake, C.; et al. (2024). u‑μP: The Unit‑Scaled Maximal Update Parametrization. arXiv:2407.17465.
  • Inception AI; MBZUAI; Cerebras Systems (2024). Jais Family Model Card. Hugging Face.

注释

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 “Meet "Jais", The World's Most Advanced Arabic Large Language Model Open Sourced by G42's Inception”. Cerebras Systems. [1]
  2. 2.0 2.1 2.2 2.3 “UAE's G42 launches open source Arabic language AI model”. Reuters. [2]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 “[2308.16149] Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models”. arXiv. [3]
  4. 4.0 4.1 “Upgraded Arabic large language model is twice as big”. Computer Weekly. [4]
  5. 5.0 5.1 “G42 launches JAIS 70B and 20 other AI models to advance Arabic natural language processing”. Abu Dhabi Media Office. [5]
  6. 6.0 6.1 “Introducing JAIS: Arabic-centric Large Language Model on Azure”. Microsoft Tech Community. [6]