GPT (OpenAI) — 生成式预训练变换模型
GPT (Generative Pre-trained Transformer,生成式预训练变换模型) 是由OpenAI公司开发的一个大语言模型 (LLM) 家族。GPT 模型建立在 Transformer 架构之上,并实现了生成式预训练的范式:在第一阶段,模型在没有明确标注的大量文本语料库上进行训练,然后可以针对特定任务进行微调。
名称
缩写 GPT 的全称是 Generative Pre-trained Transformer (生成式预训练变换模型)。
- 生成式 (Generative): 指模型能够创建(生成)新内容,例如文本。
- 预训练 (Pre-trained): 表明模型在大量数据(例如来自互联网的文本)上经过了广泛的初始训练阶段。预训练之后,模型通常可以被进一步“微调”(fine-tuned)以执行更具体的任务。
- 变换模型 (Transformer): 这是一种特定的神经网络架构的名称,是 GPT 及许多其他现代 AI 模型背后的关键创新。
GPT 的主要特点是其训练采用自回归形式——模型根据先前的上下文预测下一个词元(token)。也就是说,模型通过学习来最大化在已知先前词元序列的条件下,下一个词元出现的概率。训练过程中,模型会最小化预测下一个元素的误差,这使得它能够生成具有高度连贯性和一致性的文本。
GPT 中的文本生成过程
GPT 模型通过以下迭代方案逐个词元地序列化生成文本:
- 接收初始文本序列(prompt,种子文本)作为输入。
- 计算词典中所有词元作为下一个文本元素的概率分布。
- 选择下一个词元:
- 要么选择概率最高的(贪心选择),
- 要么通过随机抽样(sampling)的方法,
- 要么使用特殊的过滤策略(top-k, top-p)。
- 将选定的词元添加到当前序列中。
- 更新后的序列再次被送入模型以预测下一个词元。
Transformer 架构:文本处理
在Transformer内部,为预测下一个词元而进行的数据处理过程包括几个主要阶段:
- 分词 (Tokenization)。输入文本被分解为词元(token)——这些是文本的小单位,可以是单词、单词的一部分或标点符号。例如,在 GPT-3 模型中,词典包含约 50,257 个词元。
- 词元嵌入 (Embeddings)。每个词元通过嵌入矩阵(W_E)转换为一个固定长度的向量。这些向量编码了词元的含义:语义相近的词元在多维空间中位置也相近。在 GPT-3 模型中,嵌入的维度为 12,288。
- 在 Transformer 层中处理。
- 注意力模块 (Attention Blocks): 每个词元与序列中的其他词元进行交互。注意力机制使得模型能够考虑上下文并正确解释词语的含义。
- 前馈层 (Feed-Forward Layers): 经过注意力处理后,每个词元通过一个带有非线性激活函数的双层神经网络进行独立处理。
- 逆向转换与 Softmax。经过所有层的处理后,处理后的向量通过一个矩阵(W_U)转换回词元空间,该矩阵通常是 W_E 的转置版本。得到的 logits 向量通过 Softmax 函数进行归一化,以获得所有词元的概率分布。
- 选择下一个词元 (Sampling)。根据概率分布选择下一个词元。温度(temperature)参数控制选择的随机性:温度为 0 时,选择最可能的词元;温度较高时,选择较不常用词元的概率增加,从而使文本更具多样性。
GPT 模型
- GPT-1 (2018): 该系列的第一个模型;约有1.17亿个参数;采用两阶段训练(预训练+针对 NLP 任务的微调)。
- GPT-2 (2019): 15亿个参数;在 WebText 语料库上训练;首次能够生成连贯的长文本;零样本(zero-shot)生成质量得到提升。
- GPT-3 (2020): 1750亿个参数;在 Common Crawl、Books、Wikipedia 的综合语料库上进行大规模训练;少样本(few-shot)和零样本(zero-shot)能力得到显著发展。
- GPT-3.5 (2022): GPT-3 和 GPT-4 之间的过渡版本;通过基于人类反馈的强化学习(RLHF)改进了指令遵循能力;上下文窗口增加到 4096 个词元。
- GPT-4 (2023): 多模态模型,支持文本和图像输入;上下文窗口稳定扩展至 8,192 和 32,768 个词元;在准确性、鲁棒性和逻辑推理方面有显著提升。
- GPT-4 Turbo (2023): GPT-4 的优化版本;上下文窗口增加到 128,000 个词元;延迟更低,运行成本更低。
- GPT-4o (2024): 新一代多模态模型(文本、图像、音频);响应速度和准确性极高;上下文窗口 128,000 个词元。
- GPT-4.5 (2025): 基于 GPT-4 的研究版本,改进了对用户查询的理解,减少了错误数量,并优化了复杂答案的生成;上下文窗口 128,000 个词元。
- GPT-4.1 (2025): GPT-4 系列的改进版本,上下文窗口高达 1,048,576 个词元,并支持多模态功能。
GPT-1
第一个模型 GPT-1 由 OpenAI 公司于2018年在论文《Improving Language Understanding by Generative Pre-Training》中提出。该模型包含约1.17亿个参数,并基于 Transformer 架构构建。GPT-1 的训练分为两个阶段:无监督的生成式预训练(pre-training)阶段,以及随后的有监督微调(fine-tuning)阶段。
在预训练阶段,模型在 BookCorpus 语料库上进行训练,该语料库包含超过7000本不同类型的未出版书籍。这个语料库的特点是包含长的连续文本段落,这对于模型形成处理复杂和长距离文本依赖的能力至关重要。
在微调阶段,模型被适配用于解决特定的自然语言处理任务,包括:
- 问答 (Question Answering, QA) — 基于给定的文本上下文生成正确答案;
- 文本蕴含识别 (Natural Language Inference, NLI) — 判断两个文本之间的逻辑关系:蕴含、矛盾或中立;
- 语义相似度评估 (Semantic Textual Similarity) — 衡量两个文本序列在意义上的接近程度。
得益于这种方法,GPT-1 在一系列标准的文本理解基准测试中,表现显著优于之前的模型。
GPT-1 的开发在自然语言处理(NLP)领域展示了一系列关键的成就和发现:
- 生成式预训练的有效性。实验证明,在大型无标签文本语料库上进行预训练,能让模型学习到通用的语言表示,这些表示可用于各种应用任务,而无需对模型架构进行根本性修改。
- Transformer 架构的通用性。使用多层解码器 Transformer 使得模型能成功处理文本中的长期依赖关系,这对于之前基于循环神经网络的模型来说是困难的。
- 减少对标注数据的依赖。这项工作证实,在无标签数据上进行大规模预训练可以显著减少在目标任务上达到高质量所需标注数据的数量。
- 为后续发展奠定基础。GPT-1 的成果为后续的 GPT 系列模型(GPT-2、GPT-3 等)奠定了概念和技术基础。
GPT-2
GPT-2 模型由 OpenAI 于2019年2月发布。它在规模上远超其前身:完整版模型包含约15亿个参数。与在 BookCorpus(约5GB)上训练的 GPT-1 不同,GPT-2 是在一个专门收集的、约40GB大小的 WebText 语料库上训练的,该语料库包含来自高质量互联网来源的文本数据。模型大小和训练数据量的增加,使 GPT-2 的文本生成质量显著提高:它能够创作出有内容深度的文章、故事,甚至是连贯的文学散文片段。
GPT-2 采用了与 GPT-1 类似的自回归 Transformer 解码器架构,没有重大改动。该模型由48个自注意力层组成,隐藏状态大小为1600,总参数约15亿。训练任务是基于先前的上下文预测下一个词元,并使用了掩码注意力机制。
GPT-2 的主要区别之一是,它首次展示了在零样本学习(zero-shot learning)模式下的高效能——即在没有针对特定任务进行显式微调的情况下解决新任务的能力。模型在一个大型通用文本语料库上进行训练,没有经过特定任务数据的专门训练。评估在零样本模式下进行,模型仅依靠在预训练过程中获得的知识来完成任务。在一些语言建模任务中,GPT-2 达到了与专门在特定数据集(如维基百科、新闻文本、书籍)上训练的模型相当甚至更高的性能。
GPT-3
GPT-3 模型由 OpenAI 于2020年6月推出。它是继 GPT-2 之后生成式 Transformer 发展的又一步,其架构扩展至1750亿个参数,使其成为当时最大的语言模型。
GPT-3 的核心架构保持不变——多层自回归 Transformer 解码器,没有根本性的改动。性能的提升主要通过增加层数、隐藏层的宽度和训练规模来实现。该模型在多个大型文本语料库的组合上进行训练,包括 Common Crawl、WebText2、Books1、Books2 和维基百科,数据总量约570GB。
GPT-3 的主要特点之一是其少样本学习(few-shot learning)和零样本学习(zero-shot learning)的能力:模型能够执行广泛的自然语言处理任务,包括翻译、摘要、问答、撰写文章甚至编程,而仅仅依赖于文本提示中的几个例子,或者完全没有例子。
GPT-3.5
GPT-3.5 模型是 OpenAI 在2022年底作为 GPT 家族演进的一部分推出的。它基于 GPT-3 中使用的大规模自回归 Transformer 解码器架构,但在文本生成质量、上下文处理以及遵循复杂指令的能力方面有所提升。GPT-3.5 的确切参数数量未被官方披露,但据推测与 GPT-3 模型的参数量相当。
GPT-3.5 的训练广泛采用了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)方法,从而提高了生成答案的相关性。模型在扩展的文本语料库上训练,包括 Common Crawl、Books、WebText 和其他高质量数据源。GPT-3.5 的一个特点是最大上下文窗口增加到4096个词元(例如在 gpt-3.5-turbo 等流行版本中),这使其能够处理更长的对话和复杂的指令。
在实践中,GPT-3.5 被适配用于解决广泛的自然语言处理任务,例如:
- 生成连贯且逻辑性强的文本;
- 问答(QA)和上下文理解;
- 遵循多步骤指令;
- 在对话中更好地维持长期上下文。
基于 GPT-3.5 发布了几个关键版本,用于不同目的:
- text-davinci-002 — 第一个基于 GPT-3.5 的公开模型,专为生成和遵循指令而优化。
- text-davinci-003 — 改进版,具有更强的推理能力和生成复杂文本的能力。
- gpt-3.5-turbo — GPT-3.5 中性能最高且最具成本效益的版本,自2022年底起用于 ChatGPT 服务。
GPT-4
GPT-4 模型由 OpenAI 于2023年3月14日在《GPT-4 Technical Report》中发布。它标志着语言模型家族发展的下一阶段,在文本理解、生成有意义和创造性的回答以及处理多模态数据方面取得了显著进步。模型的具体参数数量和架构细节未被官方披露,但普遍认为 GPT-4 在规模和复杂性上都远超 GPT-3.5。GPT-4 的训练基于大规模的文本和多模态语料库,涵盖了文本数据、图像和其他类型的信息。该模型采用了 RLHF(基于人类反馈的强化学习)方法。模型的一个重要特点是上下文窗口的增加:基础版达到8,192个词元,扩展版(GPT-4 Turbo)达到32,768个词元,这使得处理长文本和复杂对话成为可能。
GPT-4 的训练是在大规模文本和多模态语料库的组合上进行的。文本部分包括从互联网、书籍、文章和代码库中精心挑选的高质量数据。多模态版本则使用了带有相应文本描述的专门图像数据集。
训练过程分几个阶段:
- 在文本和图像上进行大规模无监督预训练,
- 在专门任务上进行有监督微调(supervised fine-tuning),
- 最后阶段采用基于人类反馈的强化学习(RLHF)来提高可靠性、安全性以及指令解释的质量。
为优化训练过程,采用了分布式训练技术,使用了数千个 GPU 和专门的优化器,以在深度架构下稳定超大型模型的训练。特别关注于降低错误率,提高模型对“幻觉”的抵抗力,以及在长输入序列下提高生成的稳定性。
基于 GPT-4 发布了几个主要版本:
- GPT-4 (2023年3月): 基础版,支持文本和图像输入;上下文窗口8,192个词元(扩展版为32,768个词元)。
- GPT-4 Turbo (2023年11月): GPT-4 的优化修改版,上下文窗口增加到128,000个词元;计算成本降低,生成速度加快;支持函数调用(function calling)和 JSON 输出模式。
- GPT-4o (2024年5月): 新一代多模态版本,能够处理文本、图像和音频;响应速度和交互质量提升;上下文窗口128,000个词元。
- GPT-4.5 (2025年2月): 研究版本,改进了复杂文本的生成,提高了指令执行的准确性,并减少了幻觉水平;上下文窗口128,000个词元。
- GPT-4.1 (2025年4月): 稳定版本,上下文窗口大幅扩展至1,048,576个词元;在编程、处理长文本和多模态任务中的效率得到提升。
GPT-5
2025年8月7日,OpenAI 推出了 GPT-5,称其为“最智能、最快、最有用”的模型,内置推理模式(“thinking”),并专注于真实场景——写作、编程、健康和多模态理解。GPT-5 成为了 ChatGPT 中所有授权用户的默认模型。[1]
GPT-5 是一个由两个主要部分组成的统一系统:用于日常请求的快速、经济的响应(gpt‑5‑main)和用于复杂任务的深度推理(gpt‑5‑thinking)。一个路由器会根据对话类型、复杂性、工具需求以及用户的明确提示(例如,“think hard about this”)实时选择合适的模式。在 ChatGPT 中还提供了“迷你/专业”版本;系统路线图中列出了 GPT-4/o 系列名称与 GPT-5 版本的对应关系。
API 中提供了三种尺寸:gpt-5、gpt-5‑mini 和 gpt-5‑nano(全部支持文本+视觉)。最大总上下文为 400K 词元(输入最多约 272K,推理+输出最多 128K),这对整个 GPT-5 API 系列是固定的。公开页面上标明了相同的指标和价格卡。
根据网络搜索和开放事实数据集,GPT-5 显著减少了幻觉:与 GPT-4o 相比,错误率降低了约 45%;在“thinking”模式下,与 OpenAI o3 相比,错误率降低了约 ~80%。在处理不可能完成的任务的测试中,也观察到其“欺骗”倾向的降低。
| 世代 | 发布年份 | 参数数量 | 文本语料库大小 | 主要特点 |
|---|---|---|---|---|
| GPT-1 | 2018 | ≈1.17亿 | ≈5 GB (BooksCorpus) | 在大型语料库上进行生成式预训练,两阶段学习(预训练+微调) |
| GPT-2 | 2019 | 15亿 | ≈40 GB (WebText) | 改进的文本生成;模型部分发布 |
| GPT-3 | 2020 | 1750亿 | ≈570 GB (Common Crawl, WebText2 等) | 大规模上下文学习(in-context learning);无需微调即可进行少样本和零样本学习 |
| GPT-3.5 | 2022 | ~60–1750亿 (不同版本) | >570 GB + 额外的指令微调 | 稳定性提高;遵循指令的训练;ChatGPT 的基础 |
| GPT-4 | 2023 | 未公开 (估计:5000亿+) | 未公开 (推测:数万亿词元) | 多模态 (文本 + 图像);准确性提高;抗幻觉能力增强 |
| GPT-4 Turbo | 2023 | 未公开 | 基于 GPT-4 的训练 | 上下文增加至128,000个词元;优化生成速度和成本 |
| GPT-4o | 2024 | 未公开 | 在多模态数据上训练 | 多模态处理文本、图像和音频;响应速度快 |
| GPT-4.5 | 2025 | 未公开 | 扩展的文本和多模态语料库 | 改进的指令执行;错误率降低;研究性发布 |
| GPT-4.1 | 2025 | 未公开 | 更新的语料库;质量优化 | 上下文高达1,048,576个词元;性能和准确性提升;多模态 |
| 模型 | 发布年份 | 参数数量 | 层数 | 隐藏状态大小 | 注意力头数量 | 上下文窗口 | 训练语料库大小 |
|---|---|---|---|---|---|---|---|
| GPT-1 | 2018 | ≈1.17亿 | 12 | 768 | 12 | 512个词元 | ≈5 GB (BooksCorpus) |
| GPT-2 | 2019 | 15亿 | 48 | 1600 | 25 | 1024个词元 | ≈40 GB (WebText) |
| GPT-3 | 2020 | 1750亿 | 96 | 12,288 | 96 | 2048个词元 | ≈570 GB (Common Crawl + WebText2 + 其他) |
| GPT-3.5 | 2022 | ~60–1750亿 (不同版本) | (估计 ~96) | (估计:与 GPT-3 类似) | (未公开) | 4096个词元 | 扩展的 Common Crawl + 额外数据集 |
| GPT-4 | 2023 | (未公开, 估计:5000亿+) | (未公开) | (未公开) | (未公开) | 8,192个词元 | 推测数万亿词元 |
| GPT-4 Turbo | 2023 | (未公开) | (未公开) | (未公开) | (未公开) | 32,768个词元 | 为降低成本而优化的 GPT-4 版本 |
| GPT-4o | 2024 | (未公开) | (未公开) | (未公开) | (未公开) | 128,000个词元 | 在多模态数据上训练 (文本、音频、图像) |
| GPT-4.5 | 2025 | (未公开) | (未公开) | (未公开) | (未公开) | 128,000个词元 | 改进的指令执行;错误率降低 |
| GPT-4.1 | 2025 | (未公开) | (未公开) | (未公开) | (未公开) | 1,048,576个词元 | 多模态;扩大上下文的大规模训练 |
链接
- Better Language Models and Their Implications", OpenAI, 2019年2月14日
注释
文献
- Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. PDF.
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Chen, M. et al. (2021). Evaluating Large Language Models Trained on Code. arXiv:2107.03374.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
- OpenAI (2023). GPT-4 Technical Report. arXiv:2303.08774.
- Bubeck, S. et al. (2023). Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv:2303.12712.