RLHF

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

Обучение с подкреплением с обратной связью от человека (Reinforcement Learning from Human Feedback, RLHF) — это метод машинного обучения, в котором сначала на основе обратной связи от людей обучается специальная «модель вознаграждения» (reward model), после чего она используется в процессе обучения с подкреплением (RL) для оптимизации поведения интеллектуального агента[1].

RLHF позволяет формализовать сложные или трудноопределимые цели (например, «полезный», «безопасный» или «смешной» ответ) через оценки людей. Вместо того чтобы вручную определять сложную функцию вознаграждения, RLHF позволяет обучать модель вознаграждения непосредственно на человеческих предпочтениях. Этот подход стал ключевым для «выравнивания» (alignment) больших языковых моделей (LLM), то есть приведения их поведения в соответствие с человеческими ценностями и намерениями[2].

Развитие метода и первые достижения

Идея обучения агентов с использованием обратной связи от человека зародилась в 2010-х годах. Одним из первых значимых результатов стала работа Пола Кристиано и коллег из OpenAI и DeepMind в 2017 году. Они показали, что человеческие предпочтения могут заменить вручную заданную функцию вознаграждения в сложных задачах RL. В их эксперименте человек просматривал фрагменты поведения агента (например, в игре Atari) и выбирал более предпочтительный вариант. На основе этих парных сравнений была обучена модель вознаграждения, что позволило успешно решить ряд сложных задач, получая обратную связь менее чем по 1% действий агента[3].

В последующие годы метод стал применяться для обучения языковых моделей. В 2020 году исследователи OpenAI впервые применили RLHF для задачи суммирования текста. Они обучили модель вознаграждения, предсказывающую, какое резюме предпочтёт человек, и с помощью RL дообучили модель для оптимизации этой оценки. Результат показал значительно более высокое качество суммирования, превзойдя даже модели, обученные на человеческих референсных примерах[4].

RLHF в больших языковых моделях

Большие языковые модели получили существенную выгоду от внедрения RLHF для улучшения своих ответов с точки зрения полезности, точности и соответствия инструкциям.

InstructGPT и ChatGPT

Одним из ключевых шагов стало исследование OpenAI, представившее модели InstructGPT (2022) — версии GPT-3, дообученные с участием человека[5]. Методология состояла из трёх этапов:

  1. Supervised Fine-Tuning (SFT): Модель дообучается на небольшом наборе высококачественных демонстраций, где люди-оценщики вручную пишут примеры желаемых ответов на различные запросы.
  2. Обучение модели вознаграждения (Reward Model): Для множества запросов генерируется несколько ответов модели. Люди-оценщики ранжируют эти ответы от лучшего к худшему. На основе этих данных о предпочтениях обучается модель вознаграждения, которая учится присваивать более высокие оценки тем ответам, которые предпочитают люди.
  3. Оптимизация с помощью RL: Исходная языковая модель дообучается с помощью алгоритма проксимальной оптимизации политики (PPO), чтобы максимизировать оценку, выдаваемую моделью вознаграждения. В процессе оптимизации также вводится штраф за сильное отклонение от исходной SFT-модели, чтобы предотвратить деградацию языковых способностей.

Испытания показали, что даже относительно небольшая модель InstructGPT (1,3 млрд параметров) превзошла по полезности гигантскую модель GPT-3 (175 млрд параметров). Модели InstructGPT также стали значительно реже генерировать токсичный, предвзятый или недостоверный контент[5].

Развитие этой линии привело к созданию диалоговых моделей, наиболее известной из которых стала ChatGPT (OpenAI, конец 2022). ChatGPT представляет собой модель серии GPT-3.5, специально дообученную для ведения диалога с использованием RLHF по схожей методологии[6].

Принятие в индустрии

Метод RLHF был принят на вооружение и другими ведущими организациями. DeepMind разработал диалогового агента Sparrow (2022), который был обучен с помощью RLHF с добавлением набора правил на естественном языке (например, «не давать опасных советов»)[7]. Компания Anthropic также использовала схожие принципы для обучения своих моделей. К 2023 году RLHF стал практически стандартным компонентом при создании самых передовых языковых моделей[1].

Преимущества применения RLHF

  • Соответствие намерениям пользователя: Модели, прошедшие RLHF-тюнинг, значительно лучше следуют инструкциям и дают более релевантные и полезные ответы[5].
  • Снижение токсичности и вредного контента: Включение человека в цикл обучения позволяет явно наказывать нежелательные формы ответа. В результате RLHF-модели генерируют намного менее токсичный и предвзятый контент[5].
  • Улучшение правдивости и снижение «галлюцинаций»: Оценщики могут понижать рейтинг ответов с выдуманными фактами, побуждая модель быть точнее. Модели InstructGPT и ChatGPT реже «выдумывают» факты по сравнению с их предшественниками[5].
  • Эффективность обучения: RLHF позволяет улучшить модель без пропорционального увеличения обучающей выборки. Требуются не огромные объёмы данных, а качественные оценки предпочтений.

Ограничения и проблемы

Несмотря на успехи, метод RLHF имеет ряд ограничений и открытых проблем.

  • Качество и стоимость сбора человеческих данных: Эффективность RLHF напрямую зависит от качества обратной связи. Сбор такого датасета — трудоёмкий и дорогостоящий процесс. Кроме того, если выборка оценщиков или их критерии необъективны, модель может унаследовать их смещённость[2].
  • Риск «выученного соответствия» (Reward Hacking): Модель, оптимизируемая под определённую функцию награды, может начать приспосабливаться именно к этой функции, а не к истинной цели. Например, она может научиться давать максимально длинные ответы, если оценщики ценят длину, или избегать утверждений, если их штрафуют за неточности.
  • Отсутствие гарантий истины: RLHF не вводит в модель новых фактических знаний, а лишь учит её форме ответа, которая нравится людям. Поэтому проблема галлюцинаций до конца не решается. Модель может научиться лучше скрывать неуверенность, но не всегда сможет проверять факты[6].
  • Масштабирование предпочтений: Вопросы вызывает и перенос модели вознаграждения на другие задачи. Модель, обученная на предпочтениях для одного набора запросов, может действовать непредсказуемо, когда сталкивается с новыми по стилю или тематике задачами.

Заключение

RLHF закрепился как важный метод «выравнивания» больших языковых моделей с человеческими представлениями о хороших ответах. Он позволил заметно улучшить качество взаимодействия с ИИ-ассистентами, сделав их ответы более полезными и безопасными. RLHF рассматривается как ключевой инструмент на пути к созданию моделей, способных не просто генерировать правдоподобный текст, но и учитывать человеческие ценности, предпочтения и интенции в процессе общения[8].

Ссылки

Литература

  • Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. arXiv:1706.03741.
  • Stiennon, N. et al. (2020). Learning to Summarize from Human Feedback. arXiv:2009.01325.
  • Nakano, R. et al. (2021). WebGPT: Browser-Assisted Question-Answering with Human Feedback. arXiv:2112.09332.
  • Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155.
  • Glaese, A. et al. (2022). Improving Alignment of Dialogue Agents via Targeted Human Judgements. arXiv:2209.14375.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
  • Lee, H. et al. (2023). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
  • Liu, T. et al. (2023). A Survey of Reinforcement Learning from Human Feedback. arXiv:2312.14925.
  • Zhang, Y. et al. (2024). A Survey on Human Preference Learning for Large Language Models. arXiv:2406.11191.
  • Li, P. et al. (2024). Advancing Translation Preference Modeling with RLHF. arXiv:2402.11525.
  • McAleese, N. et al. (2024). LLM Critics Help Catch LLM Bugs. arXiv:2407.00215.

Примечания

  1. 1,0 1,1 «What Is Reinforcement Learning From Human Feedback (RLHF)?». IBM. [1]
  2. 2,0 2,1 «Reinforcement learning from human feedback». In Wikipedia. [2]
  3. Christiano, P. et al. «Deep reinforcement learning from human preferences». arXiv:1706.03741, 2017. [3]
  4. Stiennon, N. et al. «Learning to summarize from human feedback». arXiv:2009.01325, 2020. [4]
  5. 5,0 5,1 5,2 5,3 5,4 Ouyang, L. et al. «Training language models to follow instructions with human feedback». arXiv:2203.02155, 2022. [5]
  6. 6,0 6,1 «Introducing ChatGPT». OpenAI, 2022. [6]
  7. Glaese, A. et al. «Improving alignment of dialogue agents via targeted human judgements». arXiv:2209.14375, 2022. [7]
  8. «Aligning language models to follow instructions». OpenAI. [8]