Multi‑agent prompting

Мультиагентный промптинг (англ. multi-agent prompting) — это метод в инженерии промптов и системах искусственного интеллекта, при котором несколько автономных агентов на базе больших языковых моделей (LLM) взаимодействуют друг с другом для решения сложных задач через структурированный обмен инструкциями и ответами^[1].

Иными словами, мультиагентная система состоит из нескольких LLM-агентов, которые совместно работают над сложным запросом пользователя, распределяя этапы рассуждения (subtasks) между агентами с разными «ролями» и компетенциями. Основная цель этого подхода — преодолеть ограничения одиночной модели на сложных заданиях за счёт коллективного решения. Использование нескольких взаимодействующих агентов призвано повысить качество рассуждений, фактическую точность и надёжность ответа^[2]. Важной особенностью является строгая инструктивность: каждому LLM назначается определённая роль или задача в рамках общей схемы решения.

Методы и архитектурные паттерны

Исследователями предложен ряд схем мультиагентного промптинга, различающихся характером взаимодействия агентов и их ролями.

Ролевое экспертное моделирование

Один или несколько агентов назначаются доменными экспертами с узкой специализацией. Например, в мультиагентной группе разные агенты могут представлять разные области знаний (физик, химик, биолог) или разные этапы решения задачи (планировщик, исполнитель, критик)^[1]. Этот подход позволяет реализовать эффективный few-shot промптинг, где каждый агент-эксперт получает примеры-демонстрации в своей области, улучшая общую производительность.

Самокоррекция и критика (Self-reflection)

Агент может выступать в роли «критика» или рефлексировать над решениями другого агента или собственными предыдущими ответами. Стратегия self-reflection или self-refinement заключается в том, что LLM сначала генерирует ответ, а затем его же или другая модель анализирует и исправляет ошибки в этом ответе^[1]. Это позволяет итеративно улучшать итоговый результат.

Дебаты между агентами

Конкурентный вариант мультиагентного промптинга, представляющий собой организацию дискуссии или спора между несколькими LLM. В схеме LLM-Debate два или более агентов спорят о правильном ответе на задачу (например, математическую) и критикуют доводы друг друга^[3]. Такой дебатный формат улучшает способность модели к логическому рассуждению и повышает фактическую точность ответов по сравнению с одиночным решением.

Планирование и декомпозиция задач

Один агент выполняет функцию планировщика, разбивая сложный запрос на последовательность шагов или подзадач, которые затем решаются им самим или другими агентами. Методики, такие как ReAct и Reflexion, реализуют подобный принцип итеративного планирования с обратной связью. LLM сначала генерирует план решения, прежде чем приступать к его выполнению, что помогает справляться с долгими цепочками рассуждений^[1].

Мультиперсональное сотрудничество

Вместо разных моделей можно использовать одну и ту же LLM, заставляя её «разыгрывать» нескольких агентов с разными персональными установками или точками зрения. В подходе multi-persona self-collaboration одна модель в ходе диалога последовательно принимает на себя несколько ролей и ведёт дискуссию как бы сама с собой. Хотя исследования показывают, что отдельные независимые агенты обеспечивают более высокую эффективность, этот метод позволяет имитировать команду экспертов внутри одной LLM^[1].

Применение и результаты

Подход мультиагентного промптинга показал свою эффективность в ряде областей, где одиночные LLM ранее сталкивались с трудностями.

Математические и логические рассуждения

Использование нескольких агентов заметно повышает точность на задачах, требующих многошагового вывода (сложная арифметика, математические доказательства, логические головоломки). В работе Du et al. (2023) мультиагентный «дебатный» подход улучшил результат по сравнению с одиночным агентом. Анализ показал, что по мере увеличения числа агентов, участвующих в обсуждении, точность ответа возрастает^[3].

Научные и технические задачи

Для сложных предметных проблем (физика, химия) был предложен метод CoMM (Collaborative Multi-Agent, Multi-Reasoning-Path Prompting), в котором несколько LLM-агентов с разными ролями (эксперты) применяют различные стратегии рассуждения параллельно. В испытаниях на задачах по физике колледжского уровня CoMM заметно превзошёл базовые подходы вроде chain-of-thought, допуская меньше ошибок в формулах и вычислениях^[1].

Генерация и отладка кода

В сфере программирования мультиагентные системы применяются для улучшения качества кода и снижения количества ошибок. Система PromptV использует нескольких агентов для последовательного написания, проверки и исправления Verilog-кода. Распределение ролей (генерация, ревью, тестирование) улучшило способность модели обнаруживать и исправлять ошибки, в результате чего доля успешно компилирующихся решений возросла до 96,5% на одном из бенчмарков^[4].

Поиск и анализ информации

Мультиагентные системы особенно полезны для открытых, плохо структурированных запросов. Компания Anthropic разработала многоагентный режим для модели Claude, предназначенный для веб-исследований. В этой системе ведущий агент анализирует запрос и порождает несколько параллельных агентов-подзадач, каждый из которых выполняет поиск по различным аспектам темы. Такая архитектура на 90% эффективнее справлялась со сложными поисковыми вопросами по сравнению с одной моделью Claude^[2].

Классификация текста и NLP-задачи

Для задач NLP был разработан принципиально-ориентированный промптинг (Principle-Based Prompting). В этой методике LLM-агенты сначала генерируют набор «принципов» (правил решения), а затем финализирующий агент отбирает лучшие из них, на основе которых другой агент выполняет классификацию. Такой подход повысил метрику macro-F1 на 1,5–19% по сравнению с базовыми методами, приблизившись по качеству к классическому обучению на примерах (few-shot)^[5].

Ограничения и проблемы

Вычислительная сложность и затраты

Главным недостатком является резко возросшая вычислительная нагрузка. Каждый агент требует своего сеанса генерации, что ведёт к значительному расходу токенов и ресурсов. По данным Anthropic, их система потребляет в среднем в 4 раза больше токенов на один диалог, а в некоторых случаях — до 15 раз больше^[2]. Это делает применение подхода оправданным лишь для задач с высокой ценностью.

Сложность проектирования и координации

Для успешной работы требуется тщательная инженерная настройка промптов: необходимо чётко определить роль каждого агента, формат обмена сообщениями и критерии остановки. В противном случае агенты могут дублировать работу, уходить в бесконечный поиск или создавать бесполезные подзадачи^[2].

Безопасность и надёжность

Появляются новые векторы атак. Исследователи продемонстрировали феномен Prompt Infection (заражение промпта), когда вредоносный фрагмент инструкции от одного агента передаётся другому, распространяясь по всей цепочке рассуждений, как вирус. Такая атака LLM-to-LLM показывает уязвимость многоагентных систем к скрытым инъекциям и манипуляциям, что требует разработки специальных мер защиты, например, маркировки выдачи каждого агента (LLM Tagging)^[6].

Ссылки

Литература

Chen, P. et al. (2024). CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving. arXiv:2404.17729.
Li, J. et al. (2024). More Agents Is All You Need. arXiv:2402.05120.
Mi, Y. et al. (2024). PromptV: Leveraging LLM-Powered Multi-Agent Prompting for High-Quality Verilog Generation. arXiv:2412.11014.
Wei, P. et al. (2024). Don’t Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification. arXiv:2502.07165.
Lee, D.; Tiwari, A. (2024). Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems. arXiv:2410.07283.
Fernando, C. et al. (2023). PromptBreeder: Self-Referential Self-Improvement via Prompt Evolution. arXiv:2309.16797.
Wu, Q. et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155.
Liu, X. et al. (2023). AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688.
Li, G. et al. (2024). Multi-LLM Debate: Framework, Principles, and Interventions. PDF.
Du, N. et al. (2023). Improving Factuality and Reasoning in Language Models through Multi-Agent Debate. arXiv:2305.14325.

Примечания

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 Chen, Y. et al. «CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving». arXiv, 2024. [1]
↑ ^2,0 ^2,1 ^2,2 ^2,3 «How we built our multi-agent research system». Anthropic. [2]
↑ ^3,0 ^3,1 Li, G. et al. «More Agents Is All You Need». arXiv, 2024. [3]
↑ Mi, Y. et al. «PromptV: Leveraging LLM-powered Multi-Agent Prompting for High-quality Verilog Generation». ResearchGate, 2024. [4]
↑ Wei, J. et al. «Don't Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification». arXiv, 2024. [5]
↑ Lee, K. & Tiwari, A. «Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems». OpenReview, 2024. [6]

[comm_paper-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 Chen, Y. et al. «CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving». arXiv, 2024. [1]

[anthropic-mas-2] 2,0 ^2,1 ^2,2 ^2,3 «How we built our multi-agent research system». Anthropic. [2]

[more_agents_all_you_need-3] 3,0 ^3,1 Li, G. et al. «More Agents Is All You Need». arXiv, 2024. [3]

[promptv_paper-4] Mi, Y. et al. «PromptV: Leveraging LLM-powered Multi-Agent Prompting for High-quality Verilog Generation». ResearchGate, 2024. [4]

[principle_based_paper-5] Wei, J. et al. «Don't Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification». arXiv, 2024. [5]

[prompt_infection_paper-6] Lee, K. & Tiwari, A. «Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems». OpenReview, 2024. [6]

[1]

[2]

[3]

[4]

[5]

[6]