Falcon (language model family) — 猎鹰模型
Falcon 是一个开源大型语言模型 (LLM) 家族,由阿联酋阿布扎比的技术创新研究所 (Technology Innovation Institute, TII) 开发[1]。Falcon模型已成为推动普惠人工智能发展的重要贡献,并经常在 Hugging Face 的 Open LLM Leaderboard 等性能排行榜上名列前茅[2]。
该模型家族包括各种规模和专业化的模型,从可在消费级硬件上运行的紧凑版本,到能与顶尖科技公司产品相媲美的最大规模模型。Falcon 的主要特点包括其先进的架构、在高质量数据集 RefinedWeb 上的训练,以及主要采用的开放式 Apache 2.0 许可证[3]。
历史与发展
Falcon 模型的首个版本于2023年6月发布。2023年9月,Falcon-180B 模型问世,当时它成为全球最大、性能最强的开源 LLM,其参数数量超过了 Meta 的 Llama 2 70B[4][5]。
该家族的后续发展包括新一代模型和专业版本的发布:
- Falcon 2 (2024年):第二代产品,功能有所提升,包括多模态版本 Falcon 2 11B VLM (Vision Language Model)[6]。
- Falcon 3 (2024年12月):最新一代模型,在14万亿个 token 上进行训练,具备增强的多模态功能,并针对包括笔记本电脑在内的轻量级硬件进行了优化[7][8]。
- 专业模型:发布了针对特定任务的定制模型,如 Falcon Arabic 和 Falcon Mamba。
| 模型 | 参数(十亿) | 主要特点 | 许可证 |
|---|---|---|---|
| Falcon-180B | 180 | 第一代最大模型;在3.5万亿个 token 上训练;性能超越 GPT-3.5[4]。 | TII Falcon License 1.0 (有商业使用限制)[5] |
| Falcon-40B | 40 | 基础高性能模型;在1万亿个 token 上训练。 | Apache 2.0 |
| Falcon-7B | 7 | 紧凑型模型,需要约15 GB GPU内存;适用于消费级硬件[2]。 | Apache 2.0 |
| Falcon-1.3B | 1.3 | 适用于资源受限设备的最小模型。 | Apache 2.0 |
| Falcon 2 11B | 11 | 第二代;与 Llama 3 8B 和 Gemma 7B 竞争;存在多模态版本 (VLM)[6]。 | Apache 2.0 |
| Falcon 3 | N/A | 在14万亿个 token 上训练;多模态(文本、图像、音频、视频);可在笔记本电脑上运行[7]。 | Apache 2.0 |
| Falcon Arabic | 7 | 针对阿拉伯语(标准语和方言)的专业模型;采用 Falcon 3 架构[9]。 | Apache 2.0 |
| Falcon Mamba | N/A | 基于 Mamba (SSM) 架构的实验性模型,取代了 Transformer 架构[10]。 | Apache 2.0 |
架构与技术特点
Transformer 架构
大多数 Falcon 模型基于“仅解码器”(decoder-only) 的 Transformer 架构构建。关键的架构决策包括:
- Multi-Query Attention (MQA):与标准的 Multi-Head Attention 中每个“头”都有自己独立的键值对 (key/value) 不同,在 MQA 中,所有注意力头共享同一组键和值。这显著减少了内存消耗并加快了推理速度,而不会造成明显的质量损失[2]。
- Rotary Positional Embeddings (RoPE):与其他现代 LLM 一样,使用 RoPE 对 token 的位置信息进行编码。
- FlashAttention:用于优化注意力机制的计算。
Mamba 架构 (State Space Model)
Falcon Mamba 模型是一项创新,因为它摒弃了传统的 Transformer 架构,转而采用状态空间模型 (State Space Model, SSM)。Mamba 架构以线性方式处理数据序列,使其在处理极长上下文时效率显著提高,并且与 Transformer 相比需要更少的计算资源[10]。
训练数据
Falcon 模型的训练基础是 TII 创建的高质量数据集 RefinedWeb[5]。该数据集包含数万亿个从 Common Crawl 提取的 token,并经过严格的过滤和去重以提高数据质量。
- Falcon-180B 使用了一个包含 3.5万亿个 token 的扩展数据集,其中约85%来自 RefinedWeb,其余部分包括精选的书籍、对话和代码数据[4]。
- Falcon Arabic 在一个高质量的、原生的(非翻译的)阿拉伯语数据集上进行训练,该数据集涵盖了现代标准阿拉伯语和多种地区方言[11]。
专业模型
Falcon Arabic
Falcon Arabic 是一款拥有70亿参数的模型,专门针对阿拉伯语进行了优化。它在阿拉伯语基准测试(Open Arabic LLM Leaderboard)中表现出色,能够理解现代标准阿拉伯语 (MSA) 和多种地区方言。这使得该模型能够为阿拉伯语用户提供具有文化意识的准确回答[9]。其性能甚至超过了规模大其10倍的模型[12]。
多模态能力
- Falcon 2 11B VLM 是该家族中首个能够同时处理文本和图像的多模态模型[6]。
- Falcon 3 显著扩展了这些能力,增加了对视频和音频的支持。预计在2025年1月将提供完整的语音模式[7]。
性能与问题
与竞争对手的比较
Falcon 模型一直表现出高性能。
- Falcon-180B 在大多数学术基准测试(如 MMLU、HellaSwag 和 LAMBADA)上超过了 GPT-3.5 和 Llama 2 70B,但仍次于 GPT-4[4]。
- Falcon 2 11B 的性能与 Meta Llama 3 8B 和 Google Gemma 7B 持平或更高[6]。
- Falcon 3 在发布时,在其同等规模的模型中,位居 Hugging Face 全球排行榜第一名[7]。
局限性与问题
- 多语言质量:大部分训练数据是英语[13]。因此,模型在包括俄语在内的其他语言上的表现质量可能显著较低。[14]。
- 幻觉:与所有 LLM 一样,Falcon 模型也容易产生不准确或虚构的信息(幻觉),这要求在关键应用中使用时需谨慎对待[15]。
- 许可证限制:尽管大多数模型在 Apache 2.0 许可下发布,但旗舰模型 Falcon-180B 拥有自己的 TII Falcon LLM License,该许可规定,当商业使用收入超过100万美元时,需要支付版税,这限制了其在商业领域的应用[5][16]。
链接
参考文献
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Almazrouei, E. et al. (2023). The Falcon Series of Open Language Models. arXiv:2311.16867.
- Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
- Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv:2306.01116.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
注释
- ↑ “阿联酋推出大型语言模型Falcon 2”。国际文传电讯社。[1]
- ↑ 2.0 2.1 2.2 “Falcon: The \"T-shirt-sized\" 7B and 40B models that are democratizing the LLM landscape”. Hugging Face Blog. [2]
- ↑ “Falcon Model”. Hugging Face Transformers documentation. [3]
- ↑ 4.0 4.1 4.2 4.3 “Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2”. The Decoder. [4]
- ↑ 5.0 5.1 5.2 5.3 “Falcon 180B:全球最大的开源语言模型”。Neurohive。[5]
- ↑ 6.0 6.1 6.2 6.3 “Falcon 2:阿联酋技术创新研究所发布新系列AI模型,性能超越Meta的Llama 3”。AETOSWire。[6]
- ↑ 7.0 7.1 7.2 7.3 “Falcon 3:阿联酋技术创新研究所推出全球最强大的小型AI模型”。AETOSWire。[7]
- ↑ “Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures”. Abu Dhabi Media Office. [8]
- ↑ 9.0 9.1 “Falcon Arabic”. FalconLLM TII. [9]
- ↑ 10.0 10.1 “Falcon Mamba——语言模型发展中无需注意力机制的新一步”。Pikabu。[10]
- ↑ “Middle East's Leading AI Powerhouse TII Launches Two New AI Models”. TII News. [11]
- ↑ “Middle East's leading AI powerhouse, TII,launches two new AI models”. Falcon Foundation. [12]
- ↑ Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, et al. “The Falcon Series of Open Language Models.” arXiv, November 29, 2023. https://doi.org/10.48550/arXiv.2311.16867.[13]
- ↑ “中东领先的人工智能巨头TII推出两款新AI模型”。AETOSWire。[14]
- ↑ “Falcon-180B:评测、启动与初体验”。Habr。[15]
- ↑ “Falcon 180B License Discussion”. Hugging Face. [16]