LLM error mitigation — 减少 LLM 错误

减少大型语言模型 (LLM) 中的错误是一套旨在提高基于 Transformer 架构的人工智能系统准确性、可靠性和安全性的方法与技术。错误问题，特别是幻觉，是 LLM 在关键领域广泛应用的主要障碍之一。根据 2024-2025 年的研究数据，公开可用的 LLM 产生幻觉的频率在 3% 到 16% 之间^[1]。

错误类型学

现代 LLM 错误分类包括几个主要类别，每个类别都需要特定的缓解（mitigation）方法。

幻觉

幻觉指模型生成看似合理但实际上不正确的内容。根据 Huang 等人 (2023) 的研究，幻觉可分为两种主要类型^[2]：

事实性幻觉 — 与可验证事实不符，包括创造不存在的事实（捏造）。在 2024 年的一项研究中，斯坦福大学发现 LLM 捏造了超过 120 个不存在的法律案件^[3]。
逻辑性幻觉 — 推理过程中违反逻辑连贯性。

2024 年的统计数据显示，聊天机器人在 27% 的情况下会产生幻觉，并且 46% 的生成文本包含事实错误^[3]。

系统性偏见 (Bias)

LLM 中的偏见表现为社会偏见（例如，将特定职业与特定性别联系起来）和在不同人群中性能表现的差异。2024 年的研究表明，在 10 个被测试的模型中，不同人群群体的评分差异最高可达 4 分（满分 10 分）。

毒性

毒性内容被定义为生成冒犯性、有害或歧视性的内容。毒性指标根据模型和使用场景的不同而有很大差异。

减少错误的方法

减少错误的策略可分为两大类：修改模型和训练过程的方法，以及在推理（inference）阶段应用的方法。

模型与训练过程的修改

Fine-tuning and Instruction Tuning - 微调与指令调优

监督微调 (Supervised Fine-Tuning, SFT) 允许将预训练模型适配于特定任务。为降低计算成本，采用了参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 等方法，例如 LoRA 和 QLoRA，这些方法可以在保持有效性的同时，将微调成本降低高达 99%。

基于人类反馈的强化学习 (RLHF)

RLHF 是一个两阶段过程：首先，根据人类偏好训练一个奖励模型；然后，优化主 LLM 以生成能够最大化该奖励的响应。该方法在 InstructGPT 和 GPT-4 模型中证明了其有效性，显著提高了模型输出与用户期望的契合度^[4]。

Constitutional AI - 宪法 AI

由 Anthropic 公司开发的 Constitutional AI 方法是 RLHF 的一种替代方案。在该方法中，模型并非直接从人类反馈中学习，而是学习遵循一套原则（即“宪法”）。这使得对人类监督的需求减少了 80-90%，并能有效防止生成有害内容^[5]。

架构解决方案

专家混合 (Mixture of Experts, MoE): 一种稀疏激活架构，可以在不按比例增加计算成本的情况下显著增加模型容量。据推测，GPT-4 使用了 8 个专家模型，每个模型拥有 2200 亿参数。
注意力机制的修改: 分组查询注意力 (Grouped Query Attention, GQA)（应用于 Llama 3 模型）和稀疏注意力 (Sparse Attention) 等技术降低了计算复杂度和内存需求，从而能够处理更长的上下文。

推理阶段的方法

Retrieval-Augmented Generation (RAG) - 检索增强生成

RAG 是减少事实错误的最有效方法之一。在生成答案之前，系统会查询外部知识库（例如维基百科、企业文档、科学文章），检索相关信息，并将其与原始请求一同提供给模型。这使得模型的回答能够“基于”经过验证的事实。在 TriviaQA 基准测试中，RAG 系统实现了 56.8% 的精确匹配 (exact match)，在减少事实错误方面比传统模型高出 60-80%。

高级提示技巧

思维链 (Chain-of-Thought, CoT): 这种提示技巧引导模型在给出最终答案前，生成一步步的推理过程。这显著提高了模型在需要逻辑和数学计算的任务上的表现。
草稿链 (Chain of Draft, CoD): 作为 CoT 的演进，该方法让模型迭代地编辑其答案草稿，从而在消耗显著更少 token 的情况下，达到与 CoT 相当的准确性。

内在自我修正 (Intrinsic Self-Correction)

TACL 2024 年的研究表明，LLM 在没有外部信息的情况下进行自我修正的能力是有限的。有效的自我修正通常需要借助外部工具，例如用于验证计算的代码解释器或用于核实事实的搜索引擎^[6]。

错误评估方法

为衡量在减少错误方面的进展，研究人员使用了专门的指标和基准测试。

传统指标: Perplexity、BLEU 和 ROUGE。这些指标对于评估流畅度和 n-gram 匹配度很有用，但在评估事实准确性方面表现不佳。
现代方法:
- FactScore 将长文本分解为原子事实，并评估可由知识库支持的事实所占的百分比。
- SAFE (Search-Augmented Factuality Evaluator) — 由 Google 开发的一种方法，它利用搜索来核实事实，与人类评估的一致性达到 72%，而成本仅为人类评估的二十分之一。
- TruthfulQA — 一项专注于评估模型避免生成常见错误信息能力的基准测试。

文献资料

Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv:2311.05232.
Min, S. et al. (2023). FActScore: Fine-Grained Atomic Evaluation of Factual Precision in Long-Form Text Generation. arXiv:2305.14251.
Wei, J. et al. (2024). Long-Form Factuality in Large Language Models (SAFE). arXiv:2403.18802.
Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
Hu, E. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
Wang, X. et al. (2022). Self-Consistency Improves Chain-of-Thought Reasoning in Language Models. arXiv:2203.11171.
Anthropic (2024). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Maslej, N. et al. (2024). Artificial Intelligence Index Report 2024. arXiv:2405.19522.

注释

↑ “Hallucination Leaderboard”. Vectara. (2024-2025). 检索于 2025 年 7 月 4 日。
↑ Huang, L., et al. (2023). “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions”. arXiv:2311.05232.
↑ ^3.0 ^3.1 Stanford Human-Centered AI (2024). “AI Index Report 2024”.
↑ OpenAI (2024). “Learning to Reason with LLMs”. Technical Blog.
↑ Anthropic (2024). “Constitutional AI: Harmlessness from AI Feedback”. Research Paper.
↑ “When Can LLMs Actually Correct Their Own Mistakes?”. Transactions of the Association for Computational Linguistics. (2024).

[vectara2024-1] “Hallucination Leaderboard”. Vectara. (2024-2025). 检索于 2025 年 7 月 4 日。

[huang2023survey-2] Huang, L., et al. (2023). “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions”. arXiv:2311.05232.

[ai_index2024-3] 3.0 ^3.1 Stanford Human-Centered AI (2024). “AI Index Report 2024”.

[openai2024-4] OpenAI (2024). “Learning to Reason with LLMs”. Technical Blog.

[anthropic_cai-5] Anthropic (2024). “Constitutional AI: Harmlessness from AI Feedback”. Research Paper.

[tacl2024-6] “When Can LLMs Actually Correct Their Own Mistakes?”. Transactions of the Association for Computational Linguistics. (2024).

[1]

[2]

[3]

[4]

[5]

[6]

LLM error mitigation — 减少 LLM 错误

Contents

错误类型学

幻觉

系统性偏见 (Bias)

毒性

减少错误的方法

模型与训练过程的修改

Fine-tuning and Instruction Tuning - 微调与指令调优

基于人类反馈的强化学习 (RLHF)

Constitutional AI - 宪法 AI

架构解决方案

推理阶段的方法

Retrieval-Augmented Generation (RAG) - 检索增强生成

高级提示技巧

内在自我修正 (Intrinsic Self-Correction)

错误评估方法

文献资料

注释

Navigation menu

LLM error mitigation — 减少 LLM 错误

错误类型学

幻觉

系统性偏见 (Bias)

毒性

减少错误的方法

模型与训练过程的修改

Fine-tuning and Instruction Tuning - 微调与指令调优

基于人类反馈的强化学习 (RLHF)

Constitutional AI - 宪法 AI

架构解决方案

推理阶段的方法

Retrieval-Augmented Generation (RAG) - 检索增强生成

高级提示技巧

内在自我修正 (Intrinsic Self-Correction)

错误评估方法

文献资料

注释

Navigation menu

Search