Tree of Thoughts (ToT) (PT)
Tree of Thoughts (ToT) (Árvore de Pensamentos) — é um framework inovador para guiar o raciocínio de modelos de linguagem grandes (LLMs), permitindo que eles realizem a resolução deliberada de problemas através da exploração sistemática de múltiplos caminhos de raciocínio. O conceito foi apresentado em 2023 por pesquisadores da Universidade de Princeton e do Google DeepMind[1].
O ToT é uma extensão e generalização da popular técnica de "cadeia de pensamento" (Chain of Thought, CoT). Diferente do CoT, onde o raciocínio é uma única sequência linear de passos, o ToT organiza o processo de pensamento na forma de uma árvore, onde cada nó é um estado intermediário ("pensamento"), e os ramos são os possíveis caminhos para o desenvolvimento do raciocínio. Isso permite que o modelo explore múltiplas opções em paralelo, avalie sua promessa, retorne a passos anteriores ao encontrar becos sem saída (backtracking) e faça uma escolha deliberada[1][2].
Princípio de funcionamento
O framework ToT organiza o processo de resolução de problemas como uma busca em uma árvore de estados. Seu funcionamento baseia-se na interação cíclica de quatro componentes-chave[1]:
1. Decomposição do problema em "pensamentos": O problema original é dividido em subtarefas ou passos menores, chamados de "pensamentos". Diferente do CoT, onde um "pensamento" é simplesmente o próximo token, no ToT um "pensamento" é uma unidade semanticamente significativa (por exemplo, uma equação em um problema matemático ou um parágrafo em um esboço de texto) que aproxima a solução.
2. Geração de pensamentos: Em cada passo, para o estado atual (nó da árvore), o modelo gera vários "pensamentos" potenciais seguintes (ramos). Para isso, são utilizadas duas estratégias:
- Amostragem (sample): O modelo gera de forma independente várias opções de continuação. É adequado para tarefas criativas, onde um amplo espectro de ideias é útil.
- Proposição (propose): O modelo gera opções sequencialmente, o que é mais eficiente para tarefas com um espaço de solução limitado.
3. Avaliação de estados: Os "pensamentos" gerados são avaliados pelo próprio LLM para determinar sua promessa. A avaliação pode ser numérica (por exemplo, em uma escala de 0 a 1) ou categórica ("confiante", "possível", "impossível"). Esta é uma função heurística que direciona a busca para ramos promissores.
4. Algoritmo de busca: Para a exploração sistemática da árvore de pensamentos, são utilizados algoritmos de busca clássicos:
- Busca em largura (BFS): Explora todos os nós em um nível antes de passar para o próximo. Garante a descoberta do caminho mais curto, mas requer mais memória.
- Busca em profundidade (DFS): Explora um ramo até o fim antes de retroceder e tentar outro. É mais eficiente em termos de memória e adequado para tarefas com um espaço de busca profundo, mas não muito amplo.
Este framework imita o pensamento humano na resolução de problemas, combinando a geração intuitiva de ideias (com a ajuda do LLM) com o planejamento deliberado, sistemático e a exploração de variantes[2].
Comparação com outros métodos de raciocínio
ToT em comparação com a Chain of Thought (CoT)
O ToT é uma generalização direta do CoT. Se o CoT pode ser visto como uma árvore com uma largura de ramificação igual a 1, o ToT permite explorar uma árvore com uma largura arbitrária. Isso oferece vantagens cruciais[3]:
- Exploração de alternativas: O ToT pode considerar múltiplos caminhos de solução, enquanto o CoT está limitado a um único caminho linear.
- Capacidade de retroceder (backtracking): O ToT permite que o modelo "volte atrás" se um ramo de raciocínio chegar a um beco sem saída, o que é impossível no CoT.
- Planejamento global: O ToT permite fazer uma escolha estratégica com base na avaliação de vários passos futuros.
ToT em comparação com a Self-Consistency
A Self-Consistency (Autoconsistência) gera múltiplas "cadeias de pensamento" independentes e seleciona a resposta mais frequente por meio de votação. Este método melhora a confiabilidade do CoT, mas, assim como o CoT, não permite explorar a estrutura ramificada da solução. O ToT, por sua vez, pode demonstrar melhorias mais significativas em tarefas de planejamento complexas, onde não apenas as tentativas independentes são importantes, mas também sua interconexão[1].
Resultados experimentais
Os autores do ToT demonstraram sua eficácia em três tarefas que exigem planejamento ou busca não trivial.
- Jogo dos 24: Um quebra-cabeça matemático onde o objetivo é obter o número 24 a partir de quatro números dados, usando operações aritméticas básicas. O prompting padrão com o GPT-4 alcançou uma taxa de sucesso de 7,3%, enquanto a Chain of Thought obteve 4%. O ToT com busca em largura (b=5) atingiu 74% de sucesso, o que é 18,5 vezes melhor que o CoT[1][4].
- Escrita Criativa: Na tarefa de gerar um texto coeso de quatro parágrafos com as últimas sentenças pré-definidas, os textos criados com ToT receberam uma pontuação média de coerência de 7,56 em 10, enquanto os do CoT obtiveram 6,15. Em 41 de 100 comparações, as pessoas preferiram o texto gerado pelo ToT, contra 21 para o CoT[5].
- Mini Palavras-Cruzadas (5x5): O ToT preencheu corretamente 60% das palavras, enquanto o CoT preencheu apenas 1%[6].
Limitações e direções futuras
Apesar dos resultados impressionantes, o framework ToT possui algumas limitações:
- Complexidade computacional: O ToT exige significativamente mais recursos computacionais (de 5 a 100 vezes mais tokens) do que os métodos padrão, devido à necessidade de gerar e avaliar múltiplos "pensamentos"[1].
- Complexidade de implementação: A implementação do ToT requer um esforço de engenharia considerável para criar e configurar todos os componentes: o gerador de pensamentos, o avaliador de estados e o algoritmo de busca.
- Dependência da qualidade da avaliação: A eficácia de todo o framework depende fortemente da capacidade do LLM de avaliar adequadamente os estados intermediários, o que nem sempre é garantido.
Pesquisas futuras visam aumentar a eficiência, automatizar a otimização e integrar o ToT com outros métodos, como o aprendizado por reforço, para criar agentes mais inteligentes e autônomos.
Links
- Repositório oficial do Tree of Thoughts no GitHub.
- Tree of Thoughts (ToT) — guia no Prompt Engineering Guide.
Literatura
- Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
- Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
- Lyu, Q. et al. (2023). Faithful Chain-of-Thought Reasoning. arXiv:2301.13379.
- Ling, Z. et al. (2023). Deductive Verification of Chain of Thought Reasoning. arXiv:2306.03872.
- Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
- Besta, M. et al. (2023). Graph of Thoughts: Solving Elaborate Problems with Large Language Models. arXiv:2308.09687.
- Lightman, H. et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050.
- Lanham, T. et al. (2023). Measuring Faithfulness in Chain-of-Thought Reasoning. arXiv:2307.13702.
- Yang, B. et al. (2025). Hallucination Detection in Large Language Models with Metamorphic Relations. arXiv:2502.15844.
Notas
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 Yao, S., Yu, D., Zhao, J., et al. (2023). «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv. [1]
- ↑ 2.0 2.1 «What is Tree of Thoughts Prompting?». IBM. [2]
- ↑ «Tree of Thoughts vs Chain of Thought». Substack.
- ↑ «...18.5 times improvement...». arXiv.
- ↑ «...41 out of 100 comparisons...». OpenReview.
- ↑ «...CoT: 1% success rate...». arXiv.