Least-to-most Prompting (ES)
Least-to-Most Prompting (LtM) es un método para desarrollar prompts para modelos de lenguaje grandes (LLM) que permite resolver tareas complejas mediante su descomposición en etapas más simples, con la posterior resolución secuencial de estas subtareas[1]. Este enfoque fue propuesto en 2022 por un grupo de investigadores de Google Brain liderado por Denny Zhou y presentado en la conferencia ICLR 2023[2]. El objetivo principal del método es superar la limitación de los prompts de tipo Chain-of-Thought, que tienen dificultades con tareas más complejas que los ejemplos mostrados al modelo durante el entrenamiento con prompts[2]. Least-to-Most Prompting permite que el modelo generalice a tareas de mayor complejidad, sin dejar de ser interpretable y sin requerir entrenamiento adicional de la red neuronal[2]. El nombre del método se toma de la psicología pedagógica, donde «least to most prompting» se refiere a proporcionar a un estudiante una serie de pistas con un nivel creciente de ayuda para dominar una nueva habilidad[3].
Descripción del método
El método Least-to-Most Prompting se implementa en dos etapas[2], cada una de las cuales se presenta al propio modelo de lenguaje a través de prompts cuidadosamente diseñados (sin necesidad de reentrenamiento adicional del modelo):
- Descomposición de la tarea. En la primera etapa, el modelo recibe una instrucción y ejemplos que demuestran cómo dividir una tarea compleja en una secuencia de subtareas más simples. Luego, se le presenta al modelo una pregunta compleja específica, y este debe generar una lista de preguntas intermedias simplificadas[2]. Por ejemplo, para una tarea compleja, el modelo puede formular de forma independiente una subpregunta de aclaración que aborde parte del problema original.
- Resolución secuencial de subtareas. En la segunda etapa, el modelo resuelve las subtareas obtenidas una por una, desde la más simple hasta la más compleja. Para ello, a cada subtarea le precede un contexto: ejemplos de soluciones a subproblemas similares y, si están disponibles, las subtareas anteriores ya resueltas junto con sus respuestas[4]. Después de resolver la primera subtarea, el modelo agrega su respuesta al texto del prompt y recibe la siguiente subtarea, utilizando las soluciones anteriores como contexto[4]. Esto continúa hasta que se resuelve la subtarea final y más compleja, que responde directamente a la pregunta original.
Ejemplo: un problema de texto original se divide en dos etapas utilizando el método Least-to-Most. Primero, el modelo formula y resuelve una pregunta intermedia («How long does each trip take?» — «¿Cuánto tiempo dura cada viaje?»), obteniendo la respuesta “each trip takes 5 minutes" («cada viaje dura 5 minutos»). Esta respuesta se incluye en un nuevo prompt junto con la siguiente subtarea, que es la pregunta original (“How many times can she slide before it closes?” – «¿Cuántas veces puede deslizarse antes de que cierre?»). Usando el resultado anterior, el modelo calcula la respuesta final (en este ejemplo: 3 veces).
Fundamentalmente, el Least-to-Most Prompting se diferencia del enfoque estándar de chain-of-thought en que divide el proceso de razonamiento en consultas separadas con acumulación de conocimiento, en lugar de generar una única «cadena de pensamiento» continua dentro de una sola respuesta[3]. Este enfoque por etapas y recursivo permite al modelo avanzar gradualmente hacia aspectos cada vez más complejos de la tarea, abordando eficazmente el problema de la generalización de fácil a difícil (cuando el modelo se enfrenta a una tarea más difícil que las de los ejemplos de entrenamiento)[2][3]. Cabe destacar que ambas etapas del método LtM se implementan mediante few-shot prompting (demostración de varios ejemplos) y no requieren entrenamiento adicional del modelo ni su reentrenamiento con nuevos datos[2]. Además, el método es compatible con otras técnicas para mejorar el razonamiento de los LLM; por ejemplo, se puede combinar con chain-of-thought y self-consistency (muestreo secuencial de múltiples soluciones) al generar la respuesta, aunque esto no es necesario[1].
Resultados experimentales y aplicaciones
En el trabajo que propuso el Least-to-Most Prompting, se demostró que este método supera a los métodos de prompting estándar (incluido el chain-of-thought) en una serie de tareas que requieren un razonamiento complejo de varios pasos[1]. Demostró con éxito sus ventajas en tres categorías clave de tareas:
- Tareas simbólicas y algorítmicas. Por ejemplo, en la tarea de concatenación de las últimas letras de las palabras (tomar secuencialmente la última letra de cada palabra en una lista y formar una nueva palabra con ellas), el método LtM mejoró significativamente la capacidad del modelo para generalizar a secuencias de palabras más largas. Sin un entrenamiento específico, el modelo GPT-3 (code-davinci-002) con prompts de chain-of-thought resolvía correctamente estas tareas solo en aproximadamente el 32% de los casos cuando la lista de palabras tenía una longitud de 12, mientras que con el uso de Least-to-Most Prompting, la precisión alcanzaba el ~74%[1]. Con listas cortas (de longitudes vistas en los ejemplos), ambas estrategias funcionaban bien, pero a medida que aumentaba la longitud de la secuencia, la calidad del chain-of-thought disminuía drásticamente, mientras que el Least-to-Most aseguraba una disminución más suave y mantenía una alta precisión[1]. Esto demuestra la capacidad del método LtM para generalizar la lógica de la solución a datos de entrada más complejos (más largos).
- Generalización composicional (compositional generalization). Esta categoría de tareas incluye, por ejemplo, la traducción de instrucciones de texto a una secuencia de acciones (como en el benchmark SCAN, que requiere ejecutar comandos como "jump twice and run" y generalizar a combinaciones más largas)[4]. El método LtM permitió a los LLM resolver con éxito incluso las variantes más complejas de estas tareas. En particular, el modelo GPT-3 con prompts LtM alcanzó una precisión del 99% en todas las variantes de división de datos en el conjunto SCAN (incluida la división por longitud más difícil, donde las secuencias de prueba son más largas que las de entrenamiento), utilizando solo 14 ejemplos en el prompt[2]. En comparación, el enfoque estándar de chain-of-thought solo obtuvo alrededor del 16% de precisión en condiciones similares[2]. Además, esto se logró sin entrenar el modelo con los datos de entrenamiento, mientras que las mejores soluciones anteriores para SCAN se basaban en arquitecturas neuro-simbólicas especiales o métodos de aumento de datos que requerían el uso de todo el conjunto de entrenamiento de más de 15,000 ejemplos[2][2]. Así, el Least-to-Most Prompting demostró una capacidad sin precedentes para la generalización composicional en modelos sin reentrenamiento.
- Problemas matemáticos de texto. El método fue probado en tareas de aritmética en texto, por ejemplo, del conjunto de datos GSM8K (problemas de texto complejos de suma/resta y lógica)[2], así como en una serie de preguntas del conjunto DROP (que evalúan la capacidad de extraer y contar información numérica en un texto)[2]. También en este caso, el Least-to-Most Prompting mostró una mejora en la precisión en comparación con el chain-of-thought. Para GSM8K, al usar el modelo code-davinci-002, la precisión de las respuestas aumentó de ~60.9% a ~62.4%[2]. En las subtareas de DROP, la ganancia fue aún más notable: por ejemplo, en una parte de las preguntas sobre hechos de «fútbol», la precisión aumentó de ~59.6% (chain-of-thought) a ~73.4% al aplicar LtM[2]. Aunque el aumento de calidad en las tareas matemáticas fue menos dramático que en SCAN, los autores señalan un punto importante: casi cualquier tarea de GSM8K se puede resolver correctamente si el modelo recibe la descomposición correcta del problema[2]. Esto indica que la clave para una solución exitosa son las preguntas intermedias bien formuladas; el enfoque LtM está precisamente dirigido a la creación automática de tales preguntas y su resolución secuencial.
En resumen, los experimentos confirman que el Least-to-Most Prompting supera significativamente tanto al prompting ingenuo de few-shot sin razonamiento como al método chain-of-thought en muchos tipos de tareas que requieren inferencia de múltiples pasos[1]. El método permite a los LLM resolver problemas más complejos que aquellos con los que el modelo se familiarizó inicialmente a través de ejemplos, ampliando los límites del in-context learning (aprendizaje sobre la marcha mediante prompts).
Limitaciones y direcciones futuras
A pesar de sus éxitos, el método Least-to-Most Prompting tiene varias limitaciones. En primer lugar, se requieren diferentes enfoques de descomposición para diferentes tipos de tareas. Una plantilla de prompt que descompone eficazmente un problema matemático puede no ser adecuada en absoluto para una tarea de lógica o de sentido común[2]. Por ejemplo, los prompts que enseñaron al modelo a dividir problemas matemáticos de texto en pasos resultaron inútiles para una pregunta de sentido común como «¿Usó Aristóteles un ordenador portátil?». Para tal tarea, se necesita una estrategia de descomposición completamente diferente[2]. Por lo tanto, para cada nuevo dominio o tipo de problema, es necesario seleccionar nuevamente ejemplos de descomposición de la tarea en subtareas y formar un prompt correspondiente que ilustre la estructura de la solución[3]. En otras palabras, el conocimiento sobre cómo descomponer correctamente una tarea no es generalizado universalmente por el propio LLM; debe ser proporcionado a través de ejemplos para una clase específica de tareas.
Además, la eficacia de LtM depende significativamente de cuán exitosamente la tarea se pueda dividir en subobjetivos independientes. Si el modelo no logra formular correctamente los pasos intermedios o si se omiten algunas subtareas necesarias, la solución final también será incorrecta. Sin embargo, los propios desarrolladores señalan que, en muchos casos, un fracaso puede convertirse en un éxito si una persona proporciona manualmente la descomposición correcta; entonces, el modelo resuelve cada parte sin dificultad y combina las respuestas con éxito[2]. Esto subraya el potencial para un mayor desarrollo del enfoque: mejorar la calidad de la generación automática de subtareas y, posiblemente, el aprendizaje interactivo de los modelos. En conclusión, los autores de LtM sugieren que el futuro de los métodos de prompting podría orientarse hacia un diálogo bidireccional completo con el modelo, donde este reciba retroalimentación instantánea y corrección de sus pasos intermedios[2]. El método Least-to-Most Prompting puede considerarse un paso en esta dirección, demostrando que la interacción secuencial con el modelo a través de la descomposición y la resolución por etapas de tareas permite ampliar significativamente sus capacidades de razonamiento sin necesidad de entrenamiento con nuevos datos[1].
Enlaces
- Artículo original «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models» en arXiv
- Versión HTML del artículo original
- ¿Qué es el prompting de menor a mayor? — artículo de AI Safety Info
- Reseña del método en Medium
- Revisión general de los métodos de prompt engineering en arXiv
Bibliografía
- Zhou, D. et al. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625.
- Zhou, D. et al. (2023). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. ICLR 2023. OpenReview.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
- Kojima, T. et al. (2022). Large Language Models Are Zero-Shot Reasoners. arXiv:2205.11916.
- Nye, M. et al. (2021). Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv:2112.00114.
- Lake, B. M.; Baroni, M. (2018). Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks. arXiv:1711.00350.
- Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168.
- Dua, D. et al. (209). DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs. arXiv:1903.00161.
- Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
Notas
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». ar5iv.org. [1]
- ↑ 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». arXiv. [2]
- ↑ 3.0 3.1 3.2 3.3 «What is least-to-most prompting?». AI Safety Info. [3]
- ↑ 4.0 4.1 4.2 OXEN AI. «Arxiv Dives Toolformer: Language models can teach themselves to use tools». Medium. [4]