Prompt (language models) — 提示词
提示词(Prompt,源自英文“prompt”——意为“提示”或“文本请求”)在大语言模型 (LLM)的语境下,是用户为生成所需回复而提供给模型的输入文本或指令[1]。提示词为模型阐述任务,包含必要的条件、上下文和示例。模型的性能在很大程度上取决于提示词的质量。
研究文本请求开发与优化方法的学科被称为提示词工程(prompt engineering)。其目标是从 AI 模型中获得最相关、最准确和最安全的回答[2]。一个精心设计的提示词能为模型设定任务执行的“路线”,帮助明确所需的上下文和期望的结果[1]。
发展历史
通过文本提示来控制 LLM 行为的理念,随着模型能力的增强而不断发展。
早期阶段 (GPT-2)
早在2019年,OpenAI的研究人员就证明了像GPT-2这样的大型预训练语言模型,能够在没有额外训练的情况下,通过文本形式阐述任务来解决新问题。论文《Language Models are Unsupervised Multitask Learners》标志着一个根本性的转变:不再需要为每个任务对模型进行微调,只需在输入端为其提供清晰的指令即可[3]。
GPT-3的突破与情境学习 (In-Context Learning)
真正的突破发生在2020年GPT-3模型发布之时。GPT-3拥有1750亿参数,展示了情境学习(in-context learning)的能力——即从请求文本中直接提供的几个示例中“即时”掌握新任务[3]。这种工作模式被称为小样本学习(few-shot learning,“少量样本学习”),并表明,扩大模型规模可以在不进行任何权重微调的情况下,高质量地完成NLP任务。
Chain-of-Thought (CoT) - 思维链的出现
2022年的进一步发展与模型复杂逻辑推理能力的提升有关。研究人员提出了思维链(chain-of-thought prompting)格式的特殊提示词。在这类提示词中,模型不仅接收到问题,还会看到一个在给出答案前进行连贯、分步推理的示例。这显著提高了模型在算术和逻辑任务上的准确性[2]。Kojima及其同事的研究表明,即使没有示例(zero-shot),也可以通过在请求末尾添加“让我们一步一步地思考”这句话来激励模型进行推理[2]。
多模态提示词
提示词的概念已经超越了文本范围。2022年,随着DALL-E 2和Stable Diffusion等模型的出现,自然语言的用户请求成为了生成图像、乃至后来的音乐和视频的通用接口。
提示词的类型与技术
提示词有几种主要类型和技术,它们常常结合使用。
Zero-shot prompting - 零样本提示
模型只接收指令或问题,不包含任何示例。在这种模式下,LLM 依赖于其在预训练期间获得的通用知识。适用于翻译或文本摘要等简单任务[1]。
Few-shot prompting - 少样本提示
除了指令,提示词中还包含一个或多个示例,每个示例都带有输入和期望的输出。模型通过这些样本“即时学习”,并将学到的逻辑应用于新的请求。这种实现情境学习(in-context learning)的方法,在对特定格式或回答风格有要求的任务上,能显著提高准确性[1]。
Chain-of-Thought (CoT) - 思维链
这是一种特殊的提示词,适用于需要复杂推理的任务(如数学、逻辑)。提示词中包含了在给出最终答案之前的分步解析或解题计划。这能促使模型明确地构建其推理过程,从而显著提高结果质量[2]。
Prompt Tuning - 提示词调整
该技术使用自动优化的提示词,而非手动编写。提示词以一组特殊的可训练标记(连续向量)的形式表示,并附加到用户请求之前。通过仅训练这个小小的向量-提示词,就可以用最小的计算成本使一个大型“冻结”模型适应新任务[2]。
作为一门学科的提示词工程
职业的出现
LLM 能力的增长催生了一个新的专业领域——提示词工程师。这些专家负责开发和调试文本提示,以从 AI 处获得期望的行为。提示词工程师利用语言学、逻辑学和心理学知识,以最有效的方式构建输入数据[2]。2022-2023年间,首批该职位的招聘信息出现,反映了市场对有效与 AI 系统交互技能的高需求。
职业的未来与自动化
该领域发展迅速,其未来已成为讨论的焦点。例如,VMware 在2024年的研究表明,AI 本身能够通过迭代和优化找到有效的请求表述,其效果往往优于人类[4]。这催生了一种观点,即手动提示词工程可能只是一种暂时现象,自动提示词选择工具最终将成为标准。然而,截至2025年,提示词工程领域的专业知识仍然备受追捧。
应用领域
- 自然语言处理:经典的NLP任务,如文档自动摘要、机器翻译、问答和信息提取。
- 聊天机器人与虚拟助手:提示词有助于设定角色、沟通风格和回答格式,使对话系统更加一致和实用。
- 代码生成:像OpenAI Codex这样的模型能够根据自然语言描述编写程序代码,从而加快开发速度。
- 数据分析:通过提示词,可以配置模型从非结构化的文本报告中提取见解或生成假设。
- 教育:创建智能导师,能够根据学生的准备水平生成习题、解释复杂概念并检查答案。
- 创意产业:根据详细描述生成文本、艺术图像、音乐和剧本。
Prompt Injection - 提示词注入
LLM 接口的开放性导致了一类新型攻击的出现——提示词注入(prompt injection)。攻击者构建一种特殊的恶意请求,迫使模型违反其初始指令或泄露隐藏信息[2]。专家们认为这是一种“代码注入”式攻击,但注入的不是代码,而是巧妙的文本指令。
攻击类型
- 越狱(Jailbreak):一种攻击方式,允许模型“逃脱”其被施加的限制(例如内容审核策略),从而生成被禁止的内容。一个著名的例子是DAN提示词(Do Anything Now),它曾迫使ChatGPT在无审查的情况下回答问题。
- 提示词泄露(Prompt Leaking):通过特殊请求迫使模型泄露其隐藏的系统提示词片段。
- 令牌走私(Token Smuggling):将恶意指令伪装成请求中无害的一部分(例如一段代码),以绕过过滤器并引发不当行为。
这些攻击构成了一个严峻的挑战,因为传统的网络安全方法难以应对与自然语言解释相关的威胁。
参考文献
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. PDF.
- Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
- Li, X. L.; Liang, P. (2021). Prefix-Tuning: Optimizing Continuous Prompts for Generation. arXiv:2101.00190.
- Liu, Y. et al. (2021). Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. arXiv:2104.08786.
- Chang, K. et al. (2024). Efficient Prompting Methods for Large Language Models: A Survey. arXiv:2404.01077.
- Li, Z. et al. (2024). Prompt Compression for Large Language Models: A Survey. arXiv:2410.12388.
- Genkina, D. (2024). AI Prompt Engineering Is Dead. IEEE Spectrum. [5].
- Li, W. et al. (2025). A Survey of Automatic Prompt Engineering: An Optimization Perspective. arXiv:2502.11560.
- Wu, Z. et al. (2025). The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models. EMNLP 2025. PDF.
注释