Reinforcement learning from human feedback (RLHF) (ES)
Aprendizaje por refuerzo con retroalimentación humana (Reinforcement Learning from Human Feedback, RLHF) es un método de aprendizaje automático en el que primero se entrena un "modelo de recompensa" (reward model) especial basado en la retroalimentación de los humanos, que luego se utiliza en el proceso de aprendizaje por refuerzo (RL) para optimizar el comportamiento de un agente inteligente[1].
RLHF permite formalizar objetivos complejos o difíciles de definir (por ejemplo, una respuesta "útil", "segura" o "divertida") a través de las evaluaciones humanas. En lugar de definir manualmente una función de recompensa compleja, RLHF permite entrenar un modelo de recompensa directamente a partir de las preferencias humanas. Este enfoque se ha convertido en clave para la "alineación" (alignment) de los grandes modelos de lenguaje (LLM), es decir, para ajustar su comportamiento a los valores e intenciones humanas[2].
Desarrollo del método y primeros logros
La idea de entrenar agentes utilizando retroalimentación humana surgió en la década de 2010. Uno de los primeros resultados significativos fue el trabajo de Paul Christiano y sus colegas de OpenAI y DeepMind en 2017. Demostraron que las preferencias humanas podían reemplazar una función de recompensa definida manualmente en tareas complejas de RL. En su experimento, una persona observaba fragmentos del comportamiento de un agente (por ejemplo, en un juego de Atari) y elegía la opción más preferible. A partir de estas comparaciones por pares, se entrenó un modelo de recompensa, lo que permitió resolver con éxito una serie de tareas complejas recibiendo retroalimentación sobre menos del 1% de las acciones del agente[3].
En los años siguientes, el método comenzó a aplicarse al entrenamiento de modelos de lenguaje. En 2020, los investigadores de OpenAI aplicaron por primera vez RLHF a la tarea de resumen de texto. Entrenaron un modelo de recompensa que predecía qué resumen preferiría una persona y, mediante RL, ajustaron el modelo para optimizar esta evaluación. El resultado mostró una calidad de resumen significativamente mayor, superando incluso a los modelos entrenados con ejemplos de referencia humanos[4].
RLHF en grandes modelos de lenguaje
Los grandes modelos de lenguaje se han beneficiado significativamente de la implementación de RLHF para mejorar sus respuestas en términos de utilidad, precisión y cumplimiento de instrucciones.
InstructGPT y ChatGPT
Uno de los pasos clave fue la investigación de OpenAI que presentó los modelos InstructGPT (2022), versiones de GPT-3 reentrenadas con participación humana[5]. La metodología constaba de tres etapas:
- Ajuste fino supervisado (Supervised Fine-Tuning, SFT): El modelo se ajusta en un pequeño conjunto de demostraciones de alta calidad, donde evaluadores humanos escriben manualmente ejemplos de respuestas deseadas para diversas consultas.
- Entrenamiento del modelo de recompensa (Reward Model): Para un conjunto de consultas, se generan múltiples respuestas del modelo. Los evaluadores humanos clasifican estas respuestas de la mejor a la peor. Con base en estos datos de preferencias, se entrena un modelo de recompensa que aprende a asignar puntuaciones más altas a las respuestas preferidas por los humanos.
- Optimización mediante RL: El modelo de lenguaje original se ajusta utilizando el algoritmo de optimización de políticas proximales (PPO) para maximizar la puntuación otorgada por el modelo de recompensa. Durante el proceso de optimización, también se introduce una penalización por desviarse demasiado del modelo SFT original para evitar la degradación de las capacidades lingüísticas.
Las pruebas demostraron que incluso un modelo InstructGPT relativamente pequeño (1.3 mil millones de parámetros) superó en utilidad al gigantesco modelo GPT-3 (175 mil millones de parámetros). Los modelos InstructGPT también generaron contenido tóxico, sesgado o poco fiable con mucha menos frecuencia[5].
El desarrollo de esta línea condujo a la creación de modelos de diálogo, siendo el más conocido ChatGPT (OpenAI, finales de 2022). ChatGPT es un modelo de la serie GPT-3.5, específicamente ajustado para el diálogo utilizando RLHF con una metodología similar[6].
Adopción en la industria
El método RLHF también fue adoptado por otras organizaciones líderes. DeepMind desarrolló el agente de diálogo Sparrow (2022), que fue entrenado con RLHF añadiendo un conjunto de reglas en lenguaje natural (por ejemplo, "no dar consejos peligrosos")[7]. La compañía Anthropic también utilizó principios similares para entrenar sus modelos. Para 2023, RLHF se había convertido en un componente prácticamente estándar en la creación de los modelos de lenguaje más avanzados[1].
Ventajas de la aplicación de RLHF
- Coherencia con la intención del usuario: Los modelos ajustados con RLHF siguen mucho mejor las instrucciones y proporcionan respuestas más relevantes y útiles[5].
- Reducción de la toxicidad y el contenido dañino: La inclusión de humanos en el ciclo de entrenamiento permite penalizar explícitamente las formas de respuesta no deseadas. Como resultado, los modelos RLHF generan contenido mucho menos tóxico y sesgado[5].
- Mejora de la veracidad y reducción de "alucinaciones": Los evaluadores pueden calificar negativamente las respuestas con hechos inventados, incentivando al modelo a ser más preciso. Los modelos InstructGPT y ChatGPT "inventan" hechos con menos frecuencia que sus predecesores[5].
- Eficiencia del entrenamiento: RLHF permite mejorar el modelo sin un aumento proporcional del conjunto de datos de entrenamiento. No se requieren enormes volúmenes de datos, sino evaluaciones de preferencias de alta calidad.
Limitaciones y problemas
A pesar de sus éxitos, el método RLHF tiene varias limitaciones y problemas abiertos.
- Calidad y costo de la recopilación de datos humanos: La eficacia de RLHF depende directamente de la calidad de la retroalimentación. Recopilar dicho conjunto de datos es un proceso laborioso y costoso. Además, si la muestra de evaluadores o sus criterios no son objetivos, el modelo puede heredar sus sesgos[2].
- Riesgo de "hacking de recompensa" (Reward Hacking): Un modelo optimizado para una función de recompensa específica puede comenzar a adaptarse a esa función en lugar del objetivo real. Por ejemplo, puede aprender a dar respuestas extremadamente largas si los evaluadores valoran la longitud, o a evitar afirmaciones si se le penaliza por inexactitudes.
- Falta de garantías de veracidad: RLHF no introduce nuevos conocimientos fácticos en el modelo, sino que solo le enseña la forma de respuesta que agrada a los humanos. Por lo tanto, el problema de las alucinaciones no se resuelve por completo. El modelo puede aprender a ocultar mejor la incertidumbre, pero no siempre podrá verificar los hechos[6].
- Escalabilidad de las preferencias: La transferencia del modelo de recompensa a otras tareas también plantea interrogantes. Un modelo entrenado con preferencias para un conjunto de consultas puede actuar de manera impredecible cuando se enfrenta a tareas nuevas en estilo o temática.
Conclusión
RLHF se ha consolidado como un método importante para "alinear" los grandes modelos de lenguaje con las concepciones humanas sobre respuestas adecuadas. Ha permitido mejorar notablemente la calidad de la interacción con los asistentes de IA, haciendo sus respuestas más útiles y seguras. RLHF es considerado una herramienta clave en el camino hacia la creación de modelos capaces no solo de generar texto verosímil, sino también de tener en cuenta los valores, preferencias e intenciones humanas durante la comunicación[8].
Enlaces
- Artículo de OpenAI sobre el reentrenamiento de modelos para seguir instrucciones
- Resumen de RLHF por IBM
Literatura
- Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. arXiv:1706.03741.
- Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325.
- Nakano, R. et al. (2021). WebGPT: Browser-Assisted Question-Answering with Human Feedback. arXiv:2112.09332.
- Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
- Glaese, A. et al. (2022). Improving Alignment of Dialogue Agents via Targeted Human Judgements. arXiv:2209.14375.
- Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
- Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
- Liu, T. et al. (2023). A Survey of Reinforcement Learning from Human Feedback. arXiv:2312.14925.
- Zhang, Y. et al. (2024). A Survey on Human Preference Learning for Large Language Models. arXiv:2406.11191.
- Li, P. et al. (2024). Advancing Translation Preference Modeling with RLHF. arXiv:2402.11525.
- McAleese, N. et al. (2024). LLM Critics Help Catch LLM Bugs. arXiv:2407.00215.
Notas
- ↑ 1.0 1.1 «What Is Reinforcement Learning From Human Feedback (RLHF)?». IBM. [1]
- ↑ 2.0 2.1 «Reinforcement learning from human feedback». En Wikipedia. [2]
- ↑ Christiano, P. et al. «Deep reinforcement learning from human preferences». arXiv:1706.03741, 2017. [3]
- ↑ Stiennon, N. et al. «Learning to summarize from human feedback». arXiv:2009.01325, 2020. [4]
- ↑ 5.0 5.1 5.2 5.3 5.4 Ouyang, L. et al. «Training language models to follow instructions with human feedback». arXiv:2203.02155, 2022. [5]
- ↑ 6.0 6.1 «Introducing ChatGPT». OpenAI, 2022. [6]
- ↑ Glaese, A. et al. «Improving alignment of dialogue agents via targeted human judgements». arXiv:2209.14375, 2022. [7]
- ↑ «Aligning language models to follow instructions». OpenAI. [8]