PanGu (Huawei) — 华为盘古

From Systems analysis wiki
Jump to navigation Jump to search

Huawei PanGu(中文:盘古)是由华为云(Huawei Cloud)开发的一系列超大规模人工智能预训练模型(基础模型)。“盘古”之名源于中国神话中的创世神祇盘古[1]。盘古模型系列涵盖了自然语言处理(NLP)、计算机视觉(CV)、多模态分析、预测建模和科学计算等多个领域。

历史与发展

PanGu-α (2021) - 盘古-α (2021)

该系列的首个模型 PanGu-α(盘古-Alpha)于2021年4月发布。它拥有 2000亿 个参数,在当时成为全球最大的中文语言模型,规模超过了 OpenAI 的 GPT-3(1750亿参数)[2]

该模型由华为云团队与诺亚方舟实验室(Noah's Ark Lab)合作开发,并在由 2048 个专用华为昇腾910(Huawei Ascend 910)处理器组成的集群上,使用 MindSpore 框架进行训练[3]。训练数据集包含了 1.1 TB 的高质量中文文本数据。PanGu-α 在CLUE(中文语言理解评测基准)上表现出色,取得了总榜第一的成绩[1]

PanGu 3.0 (2023): 平台化方法

2023年7月,华为发布了盘古3.0(PanGu 3.0)平台,标志着其从单一模型向面向行业应用的多层“5+N+X”架构转型[4]

  • L0(基础层): 五个基础模型(NLP、CV、多模态、预测和科学计算)。
  • L1(行业层): N个行业模型,在基础模型之上针对特定行业(如政务、金融、制造等)进行微调。
  • L2(场景层): X个面向具体应用场景的模型(如虚拟助手、台风路径预测等)。

这种分层架构使客户既可以直接使用现成的解决方案,也可以在自有数据上对行业模型进行微调,从而极大地简化并降低了适配成本。

PanGu 5.5 (2025): 混合专家(MoE)架构

2025年6月,华为宣布升级至盘古5.5(PanGu 5.5),旨在深入解决行业问题。其核心特点是采用了拥有256个专家子网络的混合专家(Mixture-of-Experts, MoE)架构,使得总参数量达到7180亿[5]。MoE 架构允许在处理特定任务时动态激活模型的一部分,据华为称,这使得推理效率比前几代产品提高了八倍[6]

关键架构与技术方案

盘古模型基于GPT类的 Transformer 架构构建,并进行了一系列创新以支持超大规模模型的训练。为了控制生成过程,模型引入了一个专门的查询层(Query Layer),有助于在预训练阶段引导模型产生期望的输出[3]

盘古模型的训练和运行与华为自有的硬件和软件平台紧密集成:

  • 昇腾910处理器(Ascend 910):专用的AI加速器,是计算集群的基础。
  • MindSpore框架:一个开源的深度学习平台,支持自动并行技术,该技术结合了五种并行模式(数据并行、模型并行、流水线并行、优化器并行等),可将计算任务高效地分配到数千个节点上[3]

专用模型及其应用

PanGu-Weather - 盘古气象

该系列最著名的模型之一是盘古气象(PanGu-Weather),这是一个基于深度学习的全球气象预测模型。2023年7月,关于该模型的论文发表在权威科学期刊《自然》(Nature)上[7]

该模型在预测精度上超越了欧洲中期天气预报中心(ECMWF)的传统数值方法,且速度要快得多。生成一个24小时的全球天气预报,该模型仅需几秒钟,而传统方法需要数小时的超级计算机计算,这意味着速度提升了约10000倍[7]。2023年8月,盘古气象的预测结果被整合到 ECMWF 的服务中,用于实际的气象服务[8]

行业应用

盘古模型已在30个行业的500多个场景中得到应用。部分示例如下:

  • 农业:中国农业科学院(CAAS)利用盘古开发了育种模型,成功培育出一种抗倒伏能力更强的实验性水稻品种[5]
  • 石油和天然气行业:中国石油天然气集团公司(CNPC)使用盘古模型自动检测管道的亚毫米级缺陷,将效率提升了约40%[9]
  • 政务服务:深圳市推出了智能助手“小福”,它基于超过20万份本地文件,为市民提供政务服务信息[4]
  • 药物研发盘古药物分子(PanGu Drug Molecule)模型被用于加速候选药物的筛选过程。据称,借助该模型发现了一类全新的抗生素,这是该领域40年来的首次突破[4]

开源

2025年6月,华为宣布将盘古模型系列的部分模型开源(open-source)。开源的模型包括[10]

  • 盘古密集模型7B(PanGu Dense Model 7B,70亿参数)。
  • 盘古Pro MoE模型72B(PanGu Pro MoE Model 72B,720亿参数)。

此举旨在激励创新,并围绕华为昇腾(Huawei Ascend)硬件平台构建一个开放的生态系统,这是对全球AI领域竞争的战略回应[10]

参考文献

  • Zeng, W.; et al. (2021). PanGu‑α: Large‑Scale Autoregressive Pretrained Chinese Language Models. PDF.
  • Huawei (2021). HDC.Cloud 2021: Huawei Releases Six Ground‑breaking Products to Supercharge the Cloud and Intelligent Transformation of Business. Online news.
  • Huawei Cloud (2023). Reshaping Industries with AI: Huawei Cloud Launches PanGu Models 3.0 and Ascend AI Cloud Services. Online news.
  • Bi, K.; et al. (2023). Accurate Medium‑Range Global Weather Forecasting with 3D Neural Networks. Nature, 620, 560–566. DOI:10.1038/s41586‑023‑06185‑3.
  • Technology Magazine (2025). What Huawei PanGu 5.5 Models Mean for Industrial AI. Online article.
  • MindSpore Team (2021). MindSpore: An All‑Scenario Deep Learning Computing Framework (White Paper v1.1). PDF.
  • Zhang, S.; et al. (2024). Ascend 910 NPU SoC Architecture for Large‑Scale AI Training. arXiv:2407.11888. Online preprint.
  • AIbase News (2025). Huawei Open Sources Dense PanGu 7B and Mixture‑of‑Experts PanGuPro 72B. Online news.
  • CNPC & Huawei Cloud (2024). Kunlun: Large‑Scale AI Model for Oil and Gas Pipeline Defect Detection. Online case study.
  • MindSpore Docs (2024). Automatic Parallel — Five‑Mode Hybrid Strategy in MindSpore. Online documentation.
  • Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input‑Length Extrapolation. arXiv:2108.12409.
  • Law, M. (2025). How Huawei PanGu 5.5 AI Models Transform Industry Operations. AI Magazine. Online article.

注释

  1. 1.0 1.1 “HDC.Cloud 2021: Huawei Releases Six Groundbreaking Products to Supercharge the Cloud and Intelligent Transformation of Business”. Huawei. [1]
  2. Wodecki, Ben (27 Apr 2021). «Huawei has created the world's largest Chinese language model». AI Business. [2]
  3. 3.0 3.1 3.2 Zeng, Wei, et al. (Apr 2021). «PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models». Technical Report. [3]
  4. 4.0 4.1 4.2 «Reshaping Industries with AI: Huawei Cloud Launches Pangu Models 3.0 and Ascend AI Cloud Services». HUAWEI CLOUD. 7 Jul 2023. [4]
  5. 5.0 5.1 Law, Marcus (23 Jun 2025). «What Huawei Pangu 5.5 Models Mean for Industrial AI». Technology Magazine. [5]
  6. «How Huawei Pangu 5.5 AI Models Transform Industry Operations». AI Magazine. [6]
  7. 7.0 7.1 «Prestigious science journal Nature publishes paper about Pangu Weather AI Model authored by HUAWEI CLOUD researchers». Huawei News. 6 Jul 2023. [7]
  8. Bi, Kaifeng, et al. (2023). «Accurate medium-range global weather forecasting with 3D neural networks». Nature. [8]
  9. «CNPC and Huawei Cloud Jointly Launch the "Kunlun" Model for the Oil and Gas Industry».
  10. 10.0 10.1 «Huawei Open Sources Dense Pangu 7B and Mixture of Experts Model with 72B Parameters». Albase News. 30 Jun 2025. [9]