Tree of Thoughts (ToT) (PT)

Tree of Thoughts (ToT) (Árvore de Pensamentos) — é um framework inovador para guiar o raciocínio de modelos de linguagem grandes (LLMs), permitindo que eles realizem a resolução deliberada de problemas através da exploração sistemática de múltiplos caminhos de raciocínio. O conceito foi apresentado em 2023 por pesquisadores da Universidade de Princeton e do Google DeepMind^[1].

O ToT é uma extensão e generalização da popular técnica de "cadeia de pensamento" (Chain of Thought, CoT). Diferente do CoT, onde o raciocínio é uma única sequência linear de passos, o ToT organiza o processo de pensamento na forma de uma árvore, onde cada nó é um estado intermediário ("pensamento"), e os ramos são os possíveis caminhos para o desenvolvimento do raciocínio. Isso permite que o modelo explore múltiplas opções em paralelo, avalie sua promessa, retorne a passos anteriores ao encontrar becos sem saída (backtracking) e faça uma escolha deliberada^[1]^[2].

Princípio de funcionamento

O framework ToT organiza o processo de resolução de problemas como uma busca em uma árvore de estados. Seu funcionamento baseia-se na interação cíclica de quatro componentes-chave^[1]:

1. Decomposição do problema em "pensamentos": O problema original é dividido em subtarefas ou passos menores, chamados de "pensamentos". Diferente do CoT, onde um "pensamento" é simplesmente o próximo token, no ToT um "pensamento" é uma unidade semanticamente significativa (por exemplo, uma equação em um problema matemático ou um parágrafo em um esboço de texto) que aproxima a solução.

2. Geração de pensamentos: Em cada passo, para o estado atual (nó da árvore), o modelo gera vários "pensamentos" potenciais seguintes (ramos). Para isso, são utilizadas duas estratégias:

Amostragem (sample): O modelo gera de forma independente várias opções de continuação. É adequado para tarefas criativas, onde um amplo espectro de ideias é útil.
Proposição (propose): O modelo gera opções sequencialmente, o que é mais eficiente para tarefas com um espaço de solução limitado.

3. Avaliação de estados: Os "pensamentos" gerados são avaliados pelo próprio LLM para determinar sua promessa. A avaliação pode ser numérica (por exemplo, em uma escala de 0 a 1) ou categórica ("confiante", "possível", "impossível"). Esta é uma função heurística que direciona a busca para ramos promissores.

4. Algoritmo de busca: Para a exploração sistemática da árvore de pensamentos, são utilizados algoritmos de busca clássicos:

Busca em largura (BFS): Explora todos os nós em um nível antes de passar para o próximo. Garante a descoberta do caminho mais curto, mas requer mais memória.
Busca em profundidade (DFS): Explora um ramo até o fim antes de retroceder e tentar outro. É mais eficiente em termos de memória e adequado para tarefas com um espaço de busca profundo, mas não muito amplo.

Este framework imita o pensamento humano na resolução de problemas, combinando a geração intuitiva de ideias (com a ajuda do LLM) com o planejamento deliberado, sistemático e a exploração de variantes^[2].

Comparação com outros métodos de raciocínio

ToT em comparação com a Chain of Thought (CoT)

O ToT é uma generalização direta do CoT. Se o CoT pode ser visto como uma árvore com uma largura de ramificação igual a 1, o ToT permite explorar uma árvore com uma largura arbitrária. Isso oferece vantagens cruciais^[3]:

Exploração de alternativas: O ToT pode considerar múltiplos caminhos de solução, enquanto o CoT está limitado a um único caminho linear.
Capacidade de retroceder (backtracking): O ToT permite que o modelo "volte atrás" se um ramo de raciocínio chegar a um beco sem saída, o que é impossível no CoT.
Planejamento global: O ToT permite fazer uma escolha estratégica com base na avaliação de vários passos futuros.

ToT em comparação com a Self-Consistency

A Self-Consistency (Autoconsistência) gera múltiplas "cadeias de pensamento" independentes e seleciona a resposta mais frequente por meio de votação. Este método melhora a confiabilidade do CoT, mas, assim como o CoT, não permite explorar a estrutura ramificada da solução. O ToT, por sua vez, pode demonstrar melhorias mais significativas em tarefas de planejamento complexas, onde não apenas as tentativas independentes são importantes, mas também sua interconexão^[1].

Resultados experimentais

Os autores do ToT demonstraram sua eficácia em três tarefas que exigem planejamento ou busca não trivial.

Jogo dos 24: Um quebra-cabeça matemático onde o objetivo é obter o número 24 a partir de quatro números dados, usando operações aritméticas básicas. O prompting padrão com o GPT-4 alcançou uma taxa de sucesso de 7,3%, enquanto a Chain of Thought obteve 4%. O ToT com busca em largura (b=5) atingiu 74% de sucesso, o que é 18,5 vezes melhor que o CoT^[1]^[4].
Escrita Criativa: Na tarefa de gerar um texto coeso de quatro parágrafos com as últimas sentenças pré-definidas, os textos criados com ToT receberam uma pontuação média de coerência de 7,56 em 10, enquanto os do CoT obtiveram 6,15. Em 41 de 100 comparações, as pessoas preferiram o texto gerado pelo ToT, contra 21 para o CoT^[5].
Mini Palavras-Cruzadas (5x5): O ToT preencheu corretamente 60% das palavras, enquanto o CoT preencheu apenas 1%^[6].

Limitações e direções futuras

Apesar dos resultados impressionantes, o framework ToT possui algumas limitações:

Complexidade computacional: O ToT exige significativamente mais recursos computacionais (de 5 a 100 vezes mais tokens) do que os métodos padrão, devido à necessidade de gerar e avaliar múltiplos "pensamentos"^[1].
Complexidade de implementação: A implementação do ToT requer um esforço de engenharia considerável para criar e configurar todos os componentes: o gerador de pensamentos, o avaliador de estados e o algoritmo de busca.
Dependência da qualidade da avaliação: A eficácia de todo o framework depende fortemente da capacidade do LLM de avaliar adequadamente os estados intermediários, o que nem sempre é garantido.

Pesquisas futuras visam aumentar a eficiência, automatizar a otimização e integrar o ToT com outros métodos, como o aprendizado por reforço, para criar agentes mais inteligentes e autônomos.

Links

Repositório oficial do Tree of Thoughts no GitHub.
Tree of Thoughts (ToT) — guia no Prompt Engineering Guide.

Literatura

Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916.
Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
Lyu, Q. et al. (2023). Faithful Chain-of-Thought Reasoning. arXiv:2301.13379.
Ling, Z. et al. (2023). Deductive Verification of Chain of Thought Reasoning. arXiv:2306.03872.
Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
Besta, M. et al. (2023). Graph of Thoughts: Solving Elaborate Problems with Large Language Models. arXiv:2308.09687.
Lightman, H. et al. (2023). Let’s Verify Step by Step. arXiv:2305.20050.
Lanham, T. et al. (2023). Measuring Faithfulness in Chain-of-Thought Reasoning. arXiv:2307.13702.
Yang, B. et al. (2025). Hallucination Detection in Large Language Models with Metamorphic Relations. arXiv:2502.15844.

Notas

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Yao, S., Yu, D., Zhao, J., et al. (2023). «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv. [1]
↑ ^2.0 ^2.1 «What is Tree of Thoughts Prompting?». IBM. [2]
↑ «Tree of Thoughts vs Chain of Thought». Substack.
↑ «...18.5 times improvement...». arXiv.
↑ «...41 out of 100 comparisons...». OpenReview.
↑ «...CoT: 1% success rate...». arXiv.

[yao2023-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Yao, S., Yu, D., Zhao, J., et al. (2023). «Tree of Thoughts: Deliberate Problem Solving with Large Language Models». arXiv. [1]

[ibm_tot-2] 2.0 ^2.1 «What is Tree of Thoughts Prompting?». IBM. [2]

[substack_tot_vs_cot-3] «Tree of Thoughts vs Chain of Thought». Substack.

[arxiv_plus_5_1-4] «...18.5 times improvement...». arXiv.

[openreview_plus_3_1-5] «...41 out of 100 comparisons...». OpenReview.

[arxiv_plus_4_1-6] «...CoT: 1% success rate...». arXiv.

[1]

[2]

[3]

[4]

[5]

[6]

Tree of Thoughts (ToT) (PT)

Contents

Princípio de funcionamento

Comparação com outros métodos de raciocínio

ToT em comparação com a Chain of Thought (CoT)

ToT em comparação com a Self-Consistency

Resultados experimentais

Limitações e direções futuras

Links

Literatura

Notas

Navigation menu

Tree of Thoughts (ToT) (PT)

Princípio de funcionamento

Comparação com outros métodos de raciocínio

ToT em comparação com a Chain of Thought (CoT)

ToT em comparação com a Self-Consistency

Resultados experimentais

Limitações e direções futuras

Links

Literatura

Notas

Navigation menu

Search