Multi-Agent Debate

Многоагентные дебаты (англ. multi-agent debate) – подход в области больших языковых моделей (LLM), при котором несколько взаимодействующих агентов (экземпляров языковой модели) совместно обсуждают решение заданной задачи, обмениваясь аргументами и попытками ответов. Цель такого процесса — коллективно выработать наиболее корректный и обоснованный ответ на поставленный вопрос. Подход основывается на идее «общества разумов», где разные модели проверяют и дополняют выводы друг друга^[1]. Исследования показали, что многоагентное обсуждение позволяет существенно повысить точность и надежность ответов по сравнению с генерацией ответа одним методом: финальный ответ, полученный после дебатов агентов, как правило, более фактически достоверен и лучше справляется с задачами, требующими рассуждений^[1]. В частности, наблюдается снижение количества галлюцинаций (несуществующих «фактов») и рост успехов на сложных тестовых заданиях при использовании данной стратегии^[1].

Идея привлекать несколько ИИ для дебатов восходит к работам по безопасности искусственного интеллекта. В 2018 году группа исследователей OpenAI (Г. Ирвинг, П. Кристиано, Д. Амодеи) предложила концепцию AI safety via debate – обучение агентов через состязательные дебаты, в которых два модельных оппонента по очереди выдвигают краткие аргументы, а человек-судья решает, кто из них представил более правдивую и полезную информацию^[2]. Предполагалось, что при оптимальной стратегии такие дебаты позволят ИИ отвечать на крайне сложные вопросы, требуя от судьи лишь оценки достоверности аргументов^[2]. В последующие годы, по мере появления мощных LLM, принцип дебатов между моделями стал применяться непосредственно для улучшения качества ответов самих моделей – уже без обязательного участия человека, а с автоматизированным выбором наилучшего решения. Современные многоагентные LLM-системы используют диалог между копиями или разными моделями, чтобы исправлять ошибки друг друга и совместно приходить к более обоснованному результату.

Процедура многоагентного обсуждения

В сценарии многоагентных дебатов несколько агентов-моделей параллельно работают над одной задачей. Как правило, вначале каждому агенту предоставляется исходный вопрос или задача, после чего каждый агент независимо генерирует собственный ответ. Далее следует серия раундов общения между агентами: на каждом раунде все участники обмениваются своими текущими решениями, и каждый агент получает ответы других в качестве дополнительного контекста, на основе которого он уточняет или улучшает свой ответ в следующем раунде^[3]. Такой цикл продолжается несколько итераций (обычно задано фиксированное число раундов или до достижения явного согласия), после чего процесс останавливается и выдается итоговый ответ. Дебаты имитируют человеческую дискуссию, позволяя моделям критиковать ответы друг друга и комбинировать свои навыки рассуждения для повышения качества решения^[3]. Например, Yilun Du и коллеги (MIT и Google Brain) в экспериментах использовали 3 экземпляра языковой модели, которые обсуждали проблему в течение 2 раундов (большее число раундов ограничивали из-за затрат времени и вычислений); было показано, что даже при таком ограниченном диалоге итоговые ответы стали заметно лучше, а при увеличении числа агентов или раундов точность продолжала расти (хотя и с убывающей отдачей)^[1].

Процедура многоагентного дебата полностью реализуется на этапе вывода (inference) с помощью специальных промптов для организации диалога между уже обученными моделями. Это означает, что метод не требует дообучения самих LLM и может быть применен даже к «черным ящикам» - достаточно иметь доступ к генерации текста моделей и координировать их общение по заранее заданному шаблону^[1]^[4].

Для определения финального ответа после нескольких раундов используются разные подходы. Одним из простейших механизмов является голосование: агенты могут в конце независимо предложить свои окончательные решения, после чего выбирается вариант, поддержанный большинством из них (либо, например, наиболее часто встречающийся ответ)^[4]. Другой подход - требовать консенсуса, то есть продолжать обсуждение до тех пор, пока все модели не придут к одинаковому ответу^[4]. Наконец, может быть задействован отдельный агент-судья: либо отдельная нейросеть, обученная оценивать ответы, либо один из агентов, наделенный функцией арбитра. Судья наблюдает за ходом дискуссии и выбирает, чей аргумент оказался наиболее убедительным или корректным^[4]. Выбор механизма принятия решения влияет на характеристики системы: так, голосование или консенсус просты в реализации, но могут зафиксировать групповые ошибки, тогда как судейский оценщик (особенно обученный выявлять правильный ответ) теоретически способен вычленить верное решение даже при наличии противоречий между агентами. Однако и судейский подход имеет трудности – например, если в роли судьи выступает та же модель, что и участники, она может невольно смещаться в пользу знакомого стиля аргументации одного из агентов^[4].

Варианты конфигурации агентов и коммуникации

Многоагентные системы с LLM могут различаться по составу и способу взаимодействия агентов. Однородная конфигурация предполагает, что все агенты являются копиями одной и той же модели (или моделей схожего уровня), тогда как гетерогенная включает разных по типу или размеру моделей. В однородном случае все участники обладают сопоставимыми возможностями, и их разногласия будут возникать лишь из-за стохастической генерации ответов или разных начальных условий (например, различий в промптах). В гетерогенном подходе можно задействовать сильные и слабые модели одновременно, что потенциально позволяет одним агентам компенсировать недостатки других. Так, исследования показывают, что взаимодействие разных LLM приводит к тому, что более слабые модели улучшают свои решения, получая обратную связь от более сильных^[3]. Показательный пример — совместный дебат между языковыми моделями ChatGPT (GPT-4) и Google Bard при решении математической текстовой задачи: каждая из этих моделей по отдельности дала неправильный ответ, однако в процессе дискуссии они сумели указать друг другу на ошибки и в итоге согласовать правильное решение, используя сильные стороны каждой^[1]. В то же время гетерогенность несет и риски: существенный дисбаланс в возможностях может привести к доминированию одной модели, а если у большинства агентов имеется общее заблуждение или ошибочный bias, дебаты могут быстро сойтись к единому, но неверному ответу — явление, которое получило название эффекта «эхо-камеры»^[4]. Теоретический анализ (Estornell & Liu, NeurIPS 2024) показал, что при очень схожих моделях дебат может затухать в статичной динамике, когда все участники повторяют мнение большинства, даже если оно основано на общей ошибке в их данных^[4]. Поэтому в гетерогенных системах важен тщательный подбор агентов — например, отбирают модели с сопоставимым уровнем знаний, чтобы ни одна не доминировала и не вводила остальных в заблуждение^[4].

Ещё один аспект — структура коммуникации между агентами. В базовых реализациях используется полносвязная топология общения: на каждом раунде каждый агент получает ответы всех остальных. Такой «каждый-ко-всем» обмен максимизирует доступную информацию, но порождает значительные издержки — объём контекста растёт пропорционально числу агентов, что утяжеляет вычисления. Альтернативой является разреженная топология, ограничивающая, с кем непосредственно обменивается данными каждый агент. Например, агентов можно расположить в виде графа-сети (кольцо, дерево и т.д.), где каждый получает ответы лишь от своих соседей. Исследование компании Google (Li et al., 2024) выявило, что ограничение связности сети агентов способно существенно снизить затраты на генерацию без ухудшения, а порой и с улучшением качества решения по сравнению с полностью связной дискуссией^[3]. В экспериментах с моделями GPT-3.5 и Mistral разреженная схема «соседних» обсуждений давала такую же или более высокую точность на задачах (в том числе по математике), сократив при этом среднее число токенов контекста на шаге на порядок^[3]. Этот результат указывает, что избыточный обмен сообщениями не всегда необходим – достаточно правильно организовать ключевые взаимодействия между агентами, чтобы они пришли к верному решению с меньшими издержками.

Помимо топологии, возможны разные форматы ведения дебатов. Например, одним агентам можно поручить разные роли: одни выступают в роли «генераторов идей», другие – «критиков» или «проверяющих» решения^[4]. Такой ролевой подход стремится имитировать распределение труда, где каждый агент специализируется на определённой задаче (например, один предлагает гипотезу, второй проверяет факты, третий оценивает логическую непротиворечивость). Другой вариант — поочерёдная дискуссия (round-robin): агенты говорят не одновременно, а строго по очереди, меняясь в роли выступающего и реагирующего в фиксированном порядке^[4]. Это похоже на формальные дебаты, где слово предоставляется участникам по регламенту, что может обеспечить равное участие всех агентов. Ещё один подход – динамическое регулирование разногласий: система может специально усиливать или ослаблять степень несогласия между ответами агентов на каждом раунде^[4]. Например, можно поощрять, чтобы на первых этапах ответы максимально расходились (для охвата разных гипотез), а по мере приближения к финалу сближались. Такой механизм предложен в работе Chang (2024) для предотвращения преждевременного согласия: он поддерживает умеренный уровень противоречий между агентами, стимулируя появление новых аргументов и более глубокое обсуждение^[4].

Преимущества и эффективность подхода

Многоагентные дебаты привлекли внимание благодаря способности повышать результативность языковых моделей на сложных задачах. Целый ряд независимых исследований за 2023-2024 годы подтвердил, что группа взаимодействующих LLM способна превзойти по качеству ответа отдельную модель, работая над той же задачей. В частности, показаны улучшения в доменах, требующих сложных рассуждений: от математических вычислений до программирования и суммаризации текста. Так, Yin и соавт. (2023), Chan и соавт. (2023), Chen и соавт. (2024) и другие отмечают, что многоагентные системы уверенно обыгрывают одиночные LLM в арифметических задачах, генерации кода и даже в создании конспективных пересказов документов^[4]. Причина – разнообразие перспектив: каждый агент может подметить детали или ошибки, упущенные другими, и предоставить обратную связь коллегам. Взаимная критика и обмен разными гипотезами ведут к более всестороннему рассмотрению задачи^[4], благодаря чему итоговый ответ оказывается точнее и надёжнее.

Например, исследователи из MIT и Google Brain во главе с Yilun Du представили на ICML 2024 работу «Improving factuality and reasoning in language models through multiagent debate», в которой продемонстрировано значительное улучшение качества решений при добавлении дебатов между тремя экземплярами модели^[1]. По их результатам, процедура многоагентного обсуждения позволила добиться более высоких показателей на ряде задач по сравнению с обычным одиночным использованием той же модели: точность решения математических и стратегических задач выросла, а количество фактических ошибок снизилось^[1]. В частности, многоагентный подход улучшил результаты модели в тестах на математические рассуждения, проверку фактов и даже в задачах, требующих стратегического планирования^[1]. Авторы отмечают, что «финальный ответ, сгенерированный после такого многораундового обсуждения, получается и более фактически корректным, и более успешным в решении задач на рассуждение»^[1]. Ниже приведена иллюстрация, сравнивающая точность выполнения различных заданий моделью в одиночку и с использованием многоагентных дебатов.

Сравнение точности на нескольких задачах для однопользовательской генерации (синий цвет) и для режима многоагентных дебатов (красный цвет). Многоагентный подход (multi-agent debate) демонстрирует более высокую точность в различных доменах, включая фактологические вопросы (биографии), знаниевый тест MMLU, проверку корректности шахматных ходов, решение арифметических выражений, текстовые математические задачи уровня школы (GSM8K) и нахождение оптимального шахматного хода^[1]. По данным графика, дебаты особенно усиливают способности модели в сложных стратегических задачах (например, поиск оптимального хода в шахматах) и заметно сокращают долю ошибок в математических вычислениях и вопросах на знание фактов.

Ещё одно преимущество многоагентного подхода — преодоление ограничений одиночного самоконтроля модели. Одиночные LLM нередко применяют технику self-reflection (самоотражение), когда модель сама же оценивает и исправляет свой первоначальный ответ. Однако было обнаружено, что такой метод склонен к проблеме «degeneration-of-thought» — деградации мышления: если модель уверовала в изначчный ответ, при самопроверке она не генерирует принципиально новых идей, даже если исходное решение ошибочно^[5]. Иными словами, модель склонна зациклиться на первом придуманном ею решении, отвергая альтернативы^[5]. Многоагентные дебаты помогают снять этот эффект: несколько равноправных агентов изначально могут предложить разные гипотезы и затем последовательно оспаривать аргументы друг друга, что стимулирует поиск нестандартных ходов мысли. Tian Liang и коллеги (EMNLP 2024) назвали свою многоагентную схему MAD (Multi-Agent Debate) и показали, что она действительно поощряет дивергентное (разнообразное) мышление моделей и улучшает результаты в задачах, требующих глубокой проработки проблемы^[5]. В их реализации несколько агентов спорят по принципу «око за око» (каждый по очереди оппонирует доводам другого), а над процессом стоит вспомогательный судья, управляющий дискуссией и выбирающий финальное решение^[5]. Эксперименты Liang и соавт. продемонстрировали эффективность этого подхода на сложных тестовых наборах — в задачах коммонсенс-перевода (перевод предложений с учётом скрытого здравого смысла) и в контринтуитивной арифметике (математические головоломки с нелогичными на первый взгляд условиями) многоагентная дискуссия дала более корректные ответы, чем стандартные методы^[5]. Анализ также выявил, что для наилучшего результата дебаты следует прерывать адаптивно, не доводя до чрезмерной длины, и поддерживать лишь умеренный уровень конфликта между агентами — слишком агрессивное или, наоборот, слишком согласное поведение ухудшает итоги^[5].

Многоагентный подход оказался полезен не только для типичных задач вопросов-ответов. Он находит применение в других областях, например, для более безопасного и согласованного поведения моделей. Отдельные исследования используют дебаты агентов в задачах модерации и выработки правил: несколько LLM могут обсуждать, является ли заданный ответ приемлемым по этическим нормам, тем самым обеспечивая feedback друг другу при обучении с подкреплением. Отмечено, что дебаты способны генерировать более тонкие и обоснованные сигналы оценки, которые помогают в настройке моделей на безопасность и полезность^[3]. Также были предприняты попытки распространить мультимодальные задачи – например, когда одни агенты описывают изображение, а другие проверяют соответствие описания картинке. В работе Google (2024) показана успешность такого расширения: мультимодальный подход улучшил результаты как в чисто текстовых задачах, так и в мультимодальном понимании изображений, демонстрируя универсальность «общества разумов»^[3]. Интересно, что взаимодействие в рамках дебатов может повышать уровень более слабых моделей, как упоминалось ранее. Например, когда разные по мощности LLM участвуют в общем обсуждении, «более слабые модели постепенно усиливаются, перенимая успешные стратегии у более сильных»^[3]. Таким образом, многоагентная система не только решает поставленную задачу, но и служит своеобразным механизмом коллективного обучения моделей друг от друга.

Ограничения и открытые проблемы

Несмотря на значительные преимущества, многоагентные дебаты сталкиваются с рядом сложностей и ограничений. Одной из главных является высокая ресурсоемкость такого подхода. Для организации дискуссии требуется многократно вызывать генерацию текста у крупных моделей: если участвуют n агентов в T раундах, то суммарное число обращений к LLM возрастает в n x T раз по сравнению с одним ответом. Более того, на каждом раунде модель должна обрабатывать в качестве контекста не только исходный вопрос, но и все реплики с предыдущих раундов (ответы всех агентов). Таким образом, с ростом числа агентов и раундов объем контекстного ввода экспоненциально растет, приводя к эффекту context explosion — переполнение контекстного окна и увеличение затрат на обработку^[3]. В экспериментах фиксируют, что добавление даже 2-3 раундов обсуждения существенно повышает суммарное число токенов контекста, которое должна считать модель, а следовательно, и время ответа. Теоретически качество решения улучшается при увеличении числа итераций, но практически многие работы отмечают убывающую отдачу после нескольких раундов: часто максимальный эффект достигается на втором-третьем раунде, после чего дальнейшие обсуждения могут приводить к повторению одних и тех же аргументов или даже к снижению точности из-за перенасыщения контекста^[4]. Например, Хи и соавт. (2023) показали рост точности лишь до 2-го раунда дебатов, а затем спад, аналогично Liu и Li с коллегами (2024) сообщают о пике качества на ~4 раундах, после чего дополнительные циклы только мешают^[4]. Таким образом, определение оптимальной длительности дебатов — непростая задача: слишком короткое обсуждение может не раскрыть весь потенциал коллективного разума, а слишком длинное — вызвать информационный шум и перегрузку контекста.

Ещё одна проблема — риски группового согласия на неверный ответ. Если все агенты обладают схожим опытом и ошибочно уверены в каком-то факте, они могут усилить заблуждение друг друга. Происходит эффект эхо-камеры: в ходе дебатов модели приходят к консенсусу, но не потому что нашли истину, а вследствие подтверждения изначального общего bias. Теоретические результаты (Estornell & Liu, 2024) указывают, что при одинаковых моделях дебаты могут скатываться в стагнацию, повторяя мнение большинства без появления новых идей^[4]. Особенно опасно, когда это большинство разделяет общую ошибка, заложенную, например, в обучающих данных - тогда исход всей дискуссии окажется неверным^[6]^[4]. Для преодоления данной проблемы предлагаются специальные методы интервенции (diversity-pruning): на каждом раунде алгоритмически отсекаются слишком схожие ответы, стимулируя агентов генерировать разные варианты с максимальной информационной энтропией^[6]. Это снижает вероятность, что все ответы будут варьациями одной и той же ошибки. Другой приём — обнаружение и опровержение заблуждений (misconception refutation): система пытается автоматически выявить общие предположения агентов и целенаправленно бросает вызов тем из них, которые могут быть ложными^[6]. В работе Estornell & Liu предложен набор из трёх подобных интервенций — помимо упомянутых, также quality-pruning (отбор наиболее релевантных и качественных аргументов на каждом шаге) – и показано, что их комбинация заметно повышает эффективность дебатов и предотвращает склонность к эхо-камере^[6]^[6].

Наконец, следует отметить, что стабильность и предсказуемость многоагентных дискуссий пока далеки от идеала. В некоторых экспериментах дебаты приводили к нестабильным результатам - разные прогоны одной и той же дискуссии могли сходиться к различным ответам, или же совокупный ответ оказывался хуже, чем у одиночной модели без дебатов^[4]. Wang и соавт. (2024) и Smit и соавт. (2023) независимо отмечали случаи, когда добавление агентов ухудшало производительность, что указывает на тонкую грань между полезной критикой и деструктивными спорами^[4]. Выявление условий, при которых многоагентный подход гарантированно полезен, остаётся предметом исследований. Открытыми являются вопросы: как автоматически решать, когда остановить дебаты и зафиксировать ответ, чтобы не упустить преимущест во и не уйти в бесконечный спор, и каким образом коллективно принимать решение – посредством ли голосования, консенсуса или с помощью внешнего судьи – наиболее надежно для разных типов задач^[4]. Также остро стоит проблема безопасности и контролируемости многоагентных систем: нужно удостовериться, что агенты не будут совместно генерировать нежелательный или токсичный контент и не усилят вредные склонности друг друга. Эти вопросы, особенно касающиеся безопасности и масштабирования, признаны актуальными и сложными^[4]. Современные обзоры отмечают, что требуются дальнейшие исследования, посвященные разработке надежных правил остановки дискуссий, оценке масштабируемости подхода при увеличении числа агентов и раундов, а также внедрению методов, гарантирующих надежность и верность коллективно полученного ответа^[4]. Решение этих задач позволит превратить многоагентные дебаты в ещё более мощный и универсальный инструмент для создания более умных и безопасных систем искусственного интеллекта.

Ссылки

Литература

Irving, G. et al. (2018). AI Safety via Debate. arXiv:1805.00899.
Du, Y. et al. (2023). Improving Factuality and Reasoning in Language Models through Multiagent Debate. arXiv:2305.14325.
Liang, T. et al. (2023). Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate. arXiv:2305.19118.
Li, Y. et al. (2024). Improving Multi-Agent Debate with Sparse Communication Topology. arXiv:2406.11776.
Guo, T. et al. (2024). Large Language Model based Multi-Agents: A Survey of Progress and Challenges. arXiv:2402.01680.
Li, J. et al. (2024). More Agents Is All You Need. arXiv:2402.05120.
Estornell, A.; Liu, Y. (2024). Multi-LLM Debate: Framework, Principals, and Interventions. NeurIPS 2024.
Eo, S. et al. (2025). Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning. arXiv:2504.05047.
Tillmann, A. (2025). Literature Review Of Multi-Agent Debate For Problem-Solving. arXiv:2506.00066.
Cui, Y. et al. (2025). Efficient Leave-One-Out Approximation in LLM Multi-Agent Debate Based on Introspection. arXiv:2505.22192.
La Malfa, E. et al. (2025). Large Language Models Miss the Multi-Agent Mark. arXiv:2505.21298.

Примечания

↑ ^1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 «Improving Factuality and Reasoning in Language Models with Multiagent Debate». composable-models.github.io. [1]
↑ ^2,0 ^2,1 Irving, Geoffrey et al. «AI safety via debate». arXiv. [2]
↑ ^3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 ^3,6 ^3,7 ^3,8 Liu, Xiang Lisa et al. «Improving Multi-Agent Debate with Sparse Communication Topology». arXiv. [3]
↑ ^4,00 ^4,01 ^4,02 ^4,03 ^4,04 ^4,05 ^4,06 ^4,07 ^4,08 ^4,09 ^4,10 ^4,11 ^4,12 ^4,13 ^4,14 ^4,15 ^4,16 ^4,17 ^4,18 ^4,19 ^4,20 ^4,21 ^4,22 «Literature Review Of Multi-Agent Debate For Problem-Solving». arXiv. [4]
↑ ^5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 Liang, Tian et al. «Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate». ACL Anthology. [5]
↑ ^6,0 ^6,1 ^6,2 ^6,3 ^6,4 «Improving Multi-Agent Debate with Contrastive Deliberation and Diversity-Promoting Interventions». NeurIPS 2024. [6]

[composable-llm-debate-1] 1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 «Improving Factuality and Reasoning in Language Models with Multiagent Debate». composable-models.github.io. [1]

[arxiv-ai-safety-2] 2,0 ^2,1 Irving, Geoffrey et al. «AI safety via debate». arXiv. [2]

[arxiv-communication-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 ^3,6 ^3,7 ^3,8 Liu, Xiang Lisa et al. «Improving Multi-Agent Debate with Sparse Communication Topology». arXiv. [3]

[litreview-problem-solving-4] 4,00 ^4,01 ^4,02 ^4,03 ^4,04 ^4,05 ^4,06 ^4,07 ^4,08 ^4,09 ^4,10 ^4,11 ^4,12 ^4,13 ^4,14 ^4,15 ^4,16 ^4,17 ^4,18 ^4,19 ^4,20 ^4,21 ^4,22 «Literature Review Of Multi-Agent Debate For Problem-Solving». arXiv. [4]

[aclanthology-divergent-5] 5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 Liang, Tian et al. «Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate». ACL Anthology. [5]

[proceedings-neurips-6] 6,0 ^6,1 ^6,2 ^6,3 ^6,4 «Improving Multi-Agent Debate with Contrastive Deliberation and Diversity-Promoting Interventions». NeurIPS 2024. [6]

[1]

[2]

[3]

[4]

[5]

[6]

Multi-Agent Debate

Содержание

Процедура многоагентного обсуждения

Варианты конфигурации агентов и коммуникации

Преимущества и эффективность подхода

Ограничения и открытые проблемы

Ссылки

Литература

Примечания

Навигация

Multi-Agent Debate

Процедура многоагентного обсуждения

Варианты конфигурации агентов и коммуникации

Преимущества и эффективность подхода

Ограничения и открытые проблемы

Ссылки

Литература

Примечания

Навигация

Поиск