Reducción de errores en LLM
La reducción de errores en los modelos de lenguaje grandes (LLM, por sus siglas en inglés) es un conjunto de métodos y tecnologías destinados a aumentar la precisión, fiabilidad y seguridad de los sistemas de inteligencia artificial basados en la arquitectura transformer. El problema de los errores, en particular las alucinaciones, es una de las barreras clave para la adopción generalizada de los LLM en áreas de misión crítica. Según investigaciones de 2024-2025, la frecuencia de las alucinaciones en los LLM disponibles públicamente oscila entre el 3% y el 16%[1].
Tipología de errores
La clasificación moderna de los errores de los LLM incluye varias categorías principales, cada una de las cuales requiere enfoques específicos para su mitigación (atenuación de las consecuencias).
Alucinaciones
Las alucinaciones consisten en la generación de contenido plausible pero fácticamente incorrecto. Según un estudio de Huang et al. (2023), se distinguen dos tipos principales[2]:
- Alucinaciones fácticas: discrepancia con hechos verificables, incluida la creación de hechos inexistentes (fabricación). En un estudio de 2024, la Universidad de Stanford descubrió que los LLM inventaron más de 120 casos judiciales inexistentes[3].
- Alucinaciones lógicas: violación de la secuencia lógica en el razonamiento.
Las estadísticas de 2024 muestran que los chatbots alucinan en el 27% de los casos, y el 46% de los textos generados contienen errores fácticos[3].
Sesgos sistemáticos (Bias)
Los sesgos en los LLM se manifiestan en forma de prejuicios sociales (por ejemplo, la asociación de profesiones con un género específico) y diferencias demográficas en el rendimiento. Estudios de 2024 demostraron que, entre 10 modelos probados, la diferencia en las puntuaciones para diferentes grupos demográficos puede alcanzar los 4 puntos sobre 10.
Toxicidad
La toxicidad se define como la generación de contenido ofensivo, dañino o discriminatorio. La métrica de toxicidad varía en un amplio rango dependiendo del modelo y del contexto de uso.
Métodos de reducción de errores
Las estrategias para combatir los errores se pueden dividir en dos grandes grupos: métodos que modifican el modelo y el proceso de entrenamiento, y métodos que se aplican en la etapa de inferencia.
Modificación del modelo y del proceso de entrenamiento
Fine-tuning e Instruction Tuning
El Supervised Fine-Tuning (SFT) permite adaptar modelos preentrenados a tareas específicas. Para reducir los costos computacionales, se utilizan métodos de Parameter-Efficient Fine-Tuning (PEFT), como LoRA y QLoRA, que pueden reducir los costos de reentrenamiento hasta en un 99% manteniendo la eficacia.
Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF)
El RLHF es un proceso de dos etapas en el que primero se entrena un modelo de recompensa basado en las preferencias humanas, y luego el LLM principal se optimiza para generar respuestas que maximicen esa recompensa. Este método ha demostrado su eficacia en los modelos InstructGPT y GPT-4, mejorando significativamente su alineación con las expectativas de los usuarios[4].
Constitutional AI
Desarrollado por la empresa Anthropic, el método Constitutional AI es una alternativa al RLHF. En lugar de la retroalimentación humana directa, el modelo se entrena para seguir un conjunto de principios (una «constitución»). Esto reduce la necesidad de supervisión humana en un 80-90% y previene eficazmente la generación de contenido dañino[5].
Soluciones arquitectónicas
- Mixture of Experts (MoE): una arquitectura con activación dispersa que permite aumentar significativamente la capacidad del modelo sin un crecimiento proporcional de los costos computacionales. Se especula que GPT-4 utiliza 8 expertos de 220 mil millones de parámetros cada uno.
- Modificaciones del mecanismo de atención: técnicas como Grouped Query Attention (GQA) (en los modelos Llama 3) y Sparse Attention reducen la complejidad computacional y los requisitos de memoria, permitiendo procesar contextos más largos.
Métodos en la etapa de inferencia
Retrieval-Augmented Generation (RAG)
El RAG es uno de los métodos más eficaces para reducir los errores fácticos. Antes de generar una respuesta, el sistema consulta una base de conocimiento externa (por ejemplo, Wikipedia, documentación corporativa, artículos científicos), extrae la información relevante y la proporciona al modelo junto con la consulta original. Esto «ancla» la respuesta a hechos verificados. Los sistemas RAG alcanzan un 56.8% de exact match en el benchmark TriviaQA y superan a los modelos tradicionales en un 60-80% en la reducción de errores fácticos.
Técnicas avanzadas de prompting
- Chain-of-Thought (CoT): un tipo de prompting que incita al modelo a generar una cadena de razonamiento paso a paso antes de dar la respuesta final. Esto mejora significativamente los resultados en tareas que requieren cálculos lógicos y matemáticos.
- Chain of Draft (CoD): una evolución de CoT en la que el modelo edita iterativamente borradores de su respuesta, lo que permite alcanzar una precisión comparable a la de CoT utilizando una cantidad significativamente menor de tokens.
Autocorrección intrínseca (Intrinsic Self-Correction)
Investigaciones de TACL de 2024 demostraron que la capacidad de los LLM para la autocorrección sin información externa es limitada. La autocorrección eficaz generalmente requiere el uso de herramientas externas, como intérpretes de código para verificar cálculos o motores de búsqueda para validar hechos[6].
Métodos de evaluación de errores
Para medir el progreso en la reducción de errores, se utilizan métricas y benchmarks especializados.
- Métricas tradicionales: Perplexity, BLEU y ROUGE. Son útiles para evaluar la fluidez y la coincidencia de n-gramas, pero no son adecuadas para evaluar la precisión fáctica.
- Enfoques modernos:
- FactScore descompone textos largos en hechos atómicos y evalúa el porcentaje de hechos confirmados por una base de conocimiento.
- SAFE (Search-Augmented Factuality Evaluator): un método de Google que utiliza la búsqueda para verificar hechos y alcanza un 72% de concordancia con las evaluaciones humanas, siendo 20 veces más económico.
- TruthfulQA: un benchmark centrado en la capacidad de los modelos para evitar la generación de conceptos erróneos populares.
Literatura
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv:2311.05232.
- Min, S. et al. (2023). FActScore: Fine-Grained Atomic Evaluation of Factual Precision in Long-Form Text Generation. arXiv:2305.14251.
- Wei, J. et al. (2024). Long-Form Factuality in Large Language Models (SAFE). arXiv:2403.18802.
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
- Hu, E. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
- Wang, X. et al. (2022). Self-Consistency Improves Chain-of-Thought Reasoning in Language Models. arXiv:2203.11171.
- Anthropic (2024). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Maslej, N. et al. (2024). Artificial Intelligence Index Report 2024. arXiv:2405.19522.
Notas
- ↑ «Hallucination Leaderboard». Vectara. (2024-2025). Consultado el 4 de julio de 2025.
- ↑ Huang, L., et al. (2023). «A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions». arXiv:2311.05232.
- ↑ 3.0 3.1 Stanford Human-Centered AI (2024). «AI Index Report 2024».
- ↑ OpenAI (2024). «Learning to Reason with LLMs». Technical Blog.
- ↑ Anthropic (2024). «Constitutional AI: Harmlessness from AI Feedback». Research Paper.
- ↑ «When Can LLMs Actually Correct Their Own Mistakes?». Transactions of the Association for Computational Linguistics. (2024).