Falcon (language model family) — 猎鹰模型

Falcon 是一个开源大型语言模型 (LLM) 家族，由阿联酋阿布扎比的技术创新研究所 (Technology Innovation Institute, TII) 开发^[1]。Falcon模型已成为推动普惠人工智能发展的重要贡献，并经常在 Hugging Face 的 Open LLM Leaderboard 等性能排行榜上名列前茅^[2]。

该模型家族包括各种规模和专业化的模型，从可在消费级硬件上运行的紧凑版本，到能与顶尖科技公司产品相媲美的最大规模模型。Falcon 的主要特点包括其先进的架构、在高质量数据集 RefinedWeb 上的训练，以及主要采用的开放式 Apache 2.0 许可证^[3]。

历史与发展

Falcon 模型的首个版本于2023年6月发布。2023年9月，Falcon-180B 模型问世，当时它成为全球最大、性能最强的开源 LLM，其参数数量超过了 Meta 的 Llama 2 70B^[4]^[5]。

该家族的后续发展包括新一代模型和专业版本的发布：

Falcon 2 (2024年)：第二代产品，功能有所提升，包括多模态版本 Falcon 2 11B VLM (Vision Language Model)^[6]。
Falcon 3 (2024年12月)：最新一代模型，在14万亿个 token 上进行训练，具备增强的多模态功能，并针对包括笔记本电脑在内的轻量级硬件进行了优化^[7]^[8]。
专业模型：发布了针对特定任务的定制模型，如 Falcon Arabic 和 Falcon Mamba。

Falcon家族主要模型
模型	参数（十亿）	主要特点	许可证
Falcon-180B	180	第一代最大模型；在3.5万亿个 token 上训练；性能超越 GPT-3.5^[4]。	TII Falcon License 1.0 (有商业使用限制)^[5]
Falcon-40B	40	基础高性能模型；在1万亿个 token 上训练。	Apache 2.0
Falcon-7B	7	紧凑型模型，需要约15 GB GPU内存；适用于消费级硬件^[2]。	Apache 2.0
Falcon-1.3B	1.3	适用于资源受限设备的最小模型。	Apache 2.0
Falcon 2 11B	11	第二代；与 Llama 3 8B 和 Gemma 7B 竞争；存在多模态版本 (VLM)^[6]。	Apache 2.0
Falcon 3	N/A	在14万亿个 token 上训练；多模态（文本、图像、音频、视频）；可在笔记本电脑上运行^[7]。	Apache 2.0
Falcon Arabic	7	针对阿拉伯语（标准语和方言）的专业模型；采用 Falcon 3 架构^[9]。	Apache 2.0
Falcon Mamba	N/A	基于 Mamba (SSM) 架构的实验性模型，取代了 Transformer 架构^[10]。	Apache 2.0

架构与技术特点

Transformer 架构

大多数 Falcon 模型基于“仅解码器”(decoder-only) 的 Transformer 架构构建。关键的架构决策包括：

Multi-Query Attention (MQA)：与标准的 Multi-Head Attention 中每个“头”都有自己独立的键值对 (key/value) 不同，在 MQA 中，所有注意力头共享同一组键和值。这显著减少了内存消耗并加快了推理速度，而不会造成明显的质量损失^[2]。
Rotary Positional Embeddings (RoPE)：与其他现代 LLM 一样，使用 RoPE 对 token 的位置信息进行编码。
FlashAttention：用于优化注意力机制的计算。

Mamba 架构 (State Space Model)

Falcon Mamba 模型是一项创新，因为它摒弃了传统的 Transformer 架构，转而采用状态空间模型 (State Space Model, SSM)。Mamba 架构以线性方式处理数据序列，使其在处理极长上下文时效率显著提高，并且与 Transformer 相比需要更少的计算资源^[10]。

训练数据

Falcon 模型的训练基础是 TII 创建的高质量数据集 RefinedWeb^[5]。该数据集包含数万亿个从 Common Crawl 提取的 token，并经过严格的过滤和去重以提高数据质量。

Falcon-180B 使用了一个包含 3.5万亿个 token 的扩展数据集，其中约85%来自 RefinedWeb，其余部分包括精选的书籍、对话和代码数据^[4]。
Falcon Arabic 在一个高质量的、原生的（非翻译的）阿拉伯语数据集上进行训练，该数据集涵盖了现代标准阿拉伯语和多种地区方言^[11]。

专业模型

Falcon Arabic

Falcon Arabic 是一款拥有70亿参数的模型，专门针对阿拉伯语进行了优化。它在阿拉伯语基准测试（Open Arabic LLM Leaderboard）中表现出色，能够理解现代标准阿拉伯语 (MSA) 和多种地区方言。这使得该模型能够为阿拉伯语用户提供具有文化意识的准确回答^[9]。其性能甚至超过了规模大其10倍的模型^[12]。

多模态能力

Falcon 2 11B VLM 是该家族中首个能够同时处理文本和图像的多模态模型^[6]。
Falcon 3 显著扩展了这些能力，增加了对视频和音频的支持。预计在2025年1月将提供完整的语音模式^[7]。

性能与问题

与竞争对手的比较

Falcon 模型一直表现出高性能。

Falcon-180B 在大多数学术基准测试（如 MMLU、HellaSwag 和 LAMBADA）上超过了 GPT-3.5 和 Llama 2 70B，但仍次于 GPT-4^[4]。
Falcon 2 11B 的性能与 Meta Llama 3 8B 和 Google Gemma 7B 持平或更高^[6]。
Falcon 3 在发布时，在其同等规模的模型中，位居 Hugging Face 全球排行榜第一名^[7]。

局限性与问题

多语言质量：大部分训练数据是英语^[13]。因此，模型在包括俄语在内的其他语言上的表现质量可能显著较低。^[14]。
幻觉：与所有 LLM 一样，Falcon 模型也容易产生不准确或虚构的信息（幻觉），这要求在关键应用中使用时需谨慎对待^[15]。
许可证限制：尽管大多数模型在 Apache 2.0 许可下发布，但旗舰模型 Falcon-180B 拥有自己的 TII Falcon LLM License，该许可规定，当商业使用收入超过100万美元时，需要支付版税，这限制了其在商业领域的应用^[5]^[16]。

链接

参考文献

Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
Almazrouei, E. et al. (2023). The Falcon Series of Open Language Models. arXiv:2311.16867.
Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv:2306.01116.
Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.
Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.

注释

↑ “阿联酋推出大型语言模型Falcon 2”。国际文传电讯社。[1]
↑ ^2.0 ^2.1 ^2.2 “Falcon: The \"T-shirt-sized\" 7B and 40B models that are democratizing the LLM landscape”. Hugging Face Blog. [2]
↑ “Falcon Model”. Hugging Face Transformers documentation. [3]
↑ ^4.0 ^4.1 ^4.2 ^4.3 “Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2”. The Decoder. [4]
↑ ^5.0 ^5.1 ^5.2 ^5.3 “Falcon 180B：全球最大的开源语言模型”。Neurohive。[5]
↑ ^6.0 ^6.1 ^6.2 ^6.3 “Falcon 2：阿联酋技术创新研究所发布新系列AI模型，性能超越Meta的Llama 3”。AETOSWire。[6]
↑ ^7.0 ^7.1 ^7.2 ^7.3 “Falcon 3：阿联酋技术创新研究所推出全球最强大的小型AI模型”。AETOSWire。[7]
↑ “Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures”. Abu Dhabi Media Office. [8]
↑ ^9.0 ^9.1 “Falcon Arabic”. FalconLLM TII. [9]
↑ ^10.0 ^10.1 “Falcon Mamba——语言模型发展中无需注意力机制的新一步”。Pikabu。[10]
↑ “Middle East's Leading AI Powerhouse TII Launches Two New AI Models”. TII News. [11]
↑ “Middle East's leading AI powerhouse, TII,launches two new AI models”. Falcon Foundation. [12]
↑ Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, et al. “The Falcon Series of Open Language Models.” arXiv, November 29, 2023. https://doi.org/10.48550/arXiv.2311.16867.[13]
↑ “中东领先的人工智能巨头TII推出两款新AI模型”。AETOSWire。[14]
↑ “Falcon-180B：评测、启动与初体验”。Habr。[15]
↑ “Falcon 180B License Discussion”. Hugging Face. [16]

[interfax-release-1] “阿联酋推出大型语言模型Falcon 2”。国际文传电讯社。[1]

[hf-blog-falcon-2] 2.0 ^2.1 ^2.2 “Falcon: The \"T-shirt-sized\" 7B and 40B models that are democratizing the LLM landscape”. Hugging Face Blog. [2]

[hf-transformers-doc-3] “Falcon Model”. Hugging Face Transformers documentation. [3]

[decoder-180b-review-4] 4.0 ^4.1 ^4.2 ^4.3 “Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2”. The Decoder. [4]

[neurohive-180b-5] 5.0 ^5.1 ^5.2 ^5.3 “Falcon 180B：全球最大的开源语言模型”。Neurohive。[5]

[aetoswire-falcon2-6] 6.0 ^6.1 ^6.2 ^6.3 “Falcon 2：阿联酋技术创新研究所发布新系列AI模型，性能超越Meta的Llama 3”。AETOSWire。[6]

[aetoswire-falcon3-7] 7.0 ^7.1 ^7.2 ^7.3 “Falcon 3：阿联酋技术创新研究所推出全球最强大的小型AI模型”。AETOSWire。[7]

[mediaoffice-falcon3-8] “Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures”. Abu Dhabi Media Office. [8]

[tii-falcon-arabic-page-9] 9.0 ^9.1 “Falcon Arabic”. FalconLLM TII. [9]

[pikabu-mamba-10] 10.0 ^10.1 “Falcon Mamba——语言模型发展中无需注意力机制的新一步”。Pikabu。[10]

[tii-news-falcon-arabic-11] “Middle East's Leading AI Powerhouse TII Launches Two New AI Models”. TII News. [11]

[falconfoundation-arabic-perf-12] “Middle East's leading AI powerhouse, TII,launches two new AI models”. Falcon Foundation. [12]

[13] Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, et al. “The Falcon Series of Open Language Models.” arXiv, November 29, 2023. https://doi.org/10.48550/arXiv.2311.16867.[13]

[aetoswire-falcon-h1-rus-14] “中东领先的人工智能巨头TII推出两款新AI模型”。AETOSWire。[14]

[habr-hallucinations-15] “Falcon-180B：评测、启动与初体验”。Habr。[15]

[hf-180b-discussions-16] “Falcon 180B License Discussion”. Hugging Face. [16]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Falcon (language model family) — 猎鹰模型

Contents

历史与发展

架构与技术特点

Transformer 架构

Mamba 架构 (State Space Model)

训练数据

专业模型

Falcon Arabic

多模态能力

性能与问题

与竞争对手的比较

局限性与问题

链接

参考文献

注释

Navigation menu

Falcon (language model family) — 猎鹰模型

历史与发展

架构与技术特点

Transformer 架构

Mamba 架构 (State Space Model)

训练数据

专业模型

Falcon Arabic

多模态能力

性能与问题

与竞争对手的比较

局限性与问题

链接

参考文献

注释

Navigation menu

Search