OpenAI's large language models — OpenAI 的大型语言模型

From Systems analysis wiki
Jump to navigation Jump to search

OpenAI 的大型语言模型是一系列由研究实验室 OpenAI 开发的大型语言模型 (LLM)。这些模型基于Transformer架构构建,已成为生成式人工智能发展的关键因素。从 2018 年推出的GPT-1模型开始,每一代后续产品,包括GPT-2、GPT-3、GPT-4,以及更新的多模态系统,如GPT-4o和 O 系列家族,都在能力、规模和影响力方面展现了指数级的增长。

OpenAI 的历史与发展理念

创立与早期使命

OpenAI 公司于 2015 年 12 月 11 日作为一家非营利性研究实验室成立。创始人包括萨姆·阿尔特曼 (Sam Altman)、埃隆·马斯克 (Elon Musk)、伊лья·苏茨克维 (Ilya Sutskever) 和格雷格·布罗克曼 (Greg Brockman) 等知名人士。其最初的使命是创造“安全且有益”的通用人工智能 (AGI),以造福全人类。公司早期的理念强调开放与合作,并计划将所有研究成果发布在开源代码库中。

向商业模式转型

随着模型规模的增长以及随之而来的计算成本的增加,OpenAI 在 2019 年被迫重新审视其组织结构。公司成立了一家名为 OpenAI LP (Limited Partnership) 的商业子公司,采用“利润上限”模式。这一举措使其能够吸引大量投资,其中最关键的是与微软的合作——微软向 OpenAI 投资了数十亿美元,并提供了其 Microsoft Azure 云基础设施的访问权限。这一转型标志着公司从完全开放的研究转向更为封闭的商业化开发,这是为下一代模型的训练提供资金所必需的。

关键技术与架构

Transformer 架构

所有 GPT 系列模型都基于谷歌在 2017 年提出的Transformer架构。该架构通过自注意力机制 (self-attention)彻底改变了自然语言处理领域,该机制允许模型权衡句子中不同单词的重要性,并并行处理序列,而非像循环神经网络 (RNN) 那样顺序处理。这为在海量数据集上进行高效训练提供了可能。

GPT's Decoder-only Approach - GPT 的仅解码器方法

与包含编码器 (encoder) 和解码器 (decoder) 的完整 Transformer 架构不同,GPT 模型仅使用解码器部分。这种架构非常适合生成任务,因为它本质上是自回归的——即根据序列中所有先前的词元 (token) 来预测下一个词元。这种方法已成为 GPT 模型的标志。

训练方法

GPT 模型的发展与其训练方法的进步密切相关:

  • 自监督预训练 (Self-supervised Pre-training): 这是基础阶段,模型在海量的未标记文本(如整个互联网、书籍)上进行训练,解决一个简单的任务——预测下一个词。这使得模型能够学习语法、句法、世界知识和通用的语言规律。
  • 基于人类反馈的强化学习 (RLHF): 从 InstructGPT 和 GPT-3.5 开始,这种方法成为关键。它包括几个步骤:
  1. 人类标注员针对各种提示编写高质量的参考答案。
  2. 模型生成多个答案,标注员将其从最好到最差进行排序。
  3. 基于这些排序,训练一个“奖励模型 (reward model)”,该模型学习预测人类会偏好哪个答案。
  4. 主模型使用强化学习算法进行微调,将奖励模型作为反馈来源,以生成更有用、更真实、更安全的答案。

GPT 模型演进

GPT-1 (2018) - GPT-1 (2018)

该系列的第一款模型,于 2018 年推出。

  • 参数量: 1.17 亿。
  • 架构: 12 层 Transformer 解码器。
  • 训练数据:BookCorpus 数据集(约 7000 本未出版的书籍)上进行训练。
  • 关键创新: 展示了“预训练+微调”两阶段方法的有效性,为所有后续模型奠定了基础。证明了单个模型无需修改架构即可适应多种 NLP 任务。

GPT-2 (2019) - GPT-2 (2019)

与 GPT-1 相比,规模显著扩大。

  • 参数量: 15 亿(约为 GPT-1 的 10 倍)。
  • 架构: 48 层 Transformer 解码器。
  • 训练数据:WebText 数据集(从互联网筛选的 40 GB 高质量文本)上进行训练。
  • 关键创新: 展示了令人印象深刻的零样本 (zero-shot)学习能力,即无需专门微调即可解决任务。能够生成长篇且连贯的文本。其发布引发了关于滥用风险的社会讨论,因此 OpenAI 最初只发布了模型的简化版本。

GPT-3 (2020) - GPT-3 (2020)

该模型在能力和公众认知上实现了 LLM 的突破。

  • 参数量: 1750 亿(约为 GPT-2 的 100 倍)。
  • 架构: 96 层 Transformer 解码器。
  • 训练数据: 在约 570 GB 的混合语料库上训练,包括 Common Crawl、书籍和维基百科。
  • 关键创新: 出现了强大的少样本 (few-shot)学习能力——模型仅需在提示中获得几个示例即可解决任务。GPT-3 成为 OpenAI 通过商业 API 提供的第一个模型,开启了基于生成式 AI 的初创公司热潮。

InstructGPT and GPT-3.5 (2022) - InstructGPT 与 GPT-3.5 (2022)

专注于提高可控性和实用性的模型家族。

  • 参数量: 与 GPT-3 相当(约 1750 亿)。
  • 训练方法: 首次大规模应用 RLHF 方法,以教导模型更好地遵循指令、更真实、更少毒性。
  • 关键创新: 模型的“服从性”和安全性急剧提升。gpt-3.5-turbo 模型成为于 2022 年 11 月 30 日推出的 ChatGPT 首个版本的基础,并成为全球现象。

GPT-4 (2023) - GPT-4 (2023)

标志着向多模态转变的新旗舰模型。

  • 参数量: 官方未披露(估计约为 1.7 万亿,可能采用混合专家模型架构 Mixture-of-Experts)。
  • 架构: 多模态 Transformer。
  • 训练数据: 在海量的文本和图像语料库上训练。
  • 关键创新: 多模态——不仅能接收文本输入,还能接收图像输入。在许多专业和学术测试(如律师资格考试)中表现出达到甚至超越人类水平的性能。

GPT-4 Turbo (2023) - GPT-4 Turbo (2023)

GPT-4 的优化版和更经济的版本。

  • 参数量: 与 GPT-4 类似。
  • 上下文窗口: 扩大至 128,000 词元(约 300 页文本)。
  • 训练数据: 知识更新至 2023 年 4 月。
  • 关键创新: 大幅降低 API 调用成本,改进了指令遵循能力和更新的知识库,使 GPT-4 的强大功能能够应用于更广泛的应用程序。

GPT-4o (2024) - GPT-4o (2024)

一款能够原生处理多种模态的“全能模型 (Omni-model)”。

  • 关键创新: 在单一模型内实现对文本、音频和图像的实时原生多模态处理。这带来了极快且自然的响应,速度可与人类对话媲美。GPT-4o 使免费的 ChatGPT 用户也能体验到 GPT-4 级别的能力。

O-series family: o1 and o3 (2024-2025) - O 系列家族:o1 与 o3 (2024-2025)

专注于发展推理能力的新一代模型。

  • o1 模型(2024 年 9 月):在认知功能上迈出了重要一步,使其能够解决需要深度分析和多步推理的更复杂任务。
  • o3 模型(2025 年 1 月):进一步发展 o1 的理念,在复杂的逻辑和数学测试(如 2024 年 AIME 考试中取得 96.7% 的成绩)中表现更佳。
  • 关键创新: 重点不仅在于生成文本,还在于构建逻辑链(思维链,Chain-of-Thought)和解决复杂问题,使 AI 更接近抽象思维。

专用模型

除了主要的 GPT 系列,OpenAI 还开发了一系列针对特定任务的模型:

  • DALL-E: 用于根据文本描述生成图像的模型系列(2021年至今)。它结合了 Transformer 和扩散模型,用于创建逼真和风格化的图像。
  • Codex 和 GitHub Copilot: 在数十亿行代码上进行微调的 GPT-3 版本。它成为 GitHub Copilot(2021年)的基础,这是一款代码自动补全工具,彻底改变了软件开发流程。
  • Whisper: 高精度的语音识别和转录模型(2022年)。在 68 万小时的音频数据上进行训练,使其能够处理不同语言、口音和背景噪音环境。
  • Sora: 用于根据文本描述生成视频的模型(2024年宣布)。能够创建长达一分钟的高质量、风格一致且逻辑连贯的视频片段。

模型汇总表

OpenAI 主要 GPT 模型对比
模型 发布年份 参数量(估算) 上下文窗口大小 关键创新
GPT-1 2018 1.17 亿 512 词元 “预训练+微调”范式,Transformer 的有效性。
GPT-2 2019 15 亿 1024 词元 零样本学习,生成长篇连贯文本。
GPT-3 2020 1750 亿 2048 词元 少样本学习,通用性,商业 API。
GPT-3.5 2022 ≈1750 亿 4096 / 16,000 词元 RLHF 训练,改进的指令遵循能力,ChatGPT 的基础。
GPT-4 2023 ≈1.7 万亿 8,192 / 32,768 词元 多模态(文本+图像),达到人类水平的性能。
GPT-4o 2024 未披露 128,000 词元 原生多模态(文本、音频、图像),实时交互。
o1 / o3 2024-2025 未披露 128,000 词元 专注于高级推理能力和复杂问题解决。

伦理、法律与社会问题

GPT 模型的发展和普及引发了广泛的社会讨论。

  • 虚假信息与恶意内容: 模型生成令人信服的文本的能力带来了被用于制造假新闻、宣传和网络钓鱼的风险。OpenAI 引入了安全过滤器,但绕过限制(越狱)的问题仍然存在。
  • 版权: 模型在来自互联网的数据上进行训练,其中包括受版权保护的材料。这导致了作者和出版商(如《纽约时报》)的诉讼,指控其侵犯版权。这些案件的结果将决定 LLM 训练的未来。
  • 数据隐私: 存在模型无意中从训练语料库中复现个人数据的风险。此外,用户输入到 ChatGPT 的数据可能被用于进一步训练,这引起了监管机构(如 2023 年的意大利)的担忧。
  • 对劳动力市场的影响: 与文本创作、代码编写和信息分析相关的任务自动化,可能会改变文案、程序员、分析师等职业。在短期内,这些模型充当“副驾驶”,提高生产力,但从长远来看,可能会导致某些角色的完全自动化。
  • 存在风险与 AI 安全: 在 OpenAI 内部和科学界,关于创造超级智能 (AGI) 带来的长期风险的辩论正在进行。公司宣称致力于安全发展,并成立了如 Superalignment 这样的团队,以解决未来更强大系统的控制问题。

参考文献

  • Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.
  • Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
  • Brown, T. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
  • OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
  • Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.

外部链接