Нейронная дегенерация текста

Нейронная дегенерация текста, также вырождение текста при нейронной генерации (англ. Neural Text Degeneration), — это класс патологий генерации текста в нейронных языковых моделях, при котором вывод становится неестественным: чрезмерно повторяющимся, шаблонным, малосодержательным или теряет связность. Термин получил широкое распространение после работы Ари Хольцмана и соавт. The Curious Case of Neural Text Degeneration (2019; ICLR 2020), где было показано, что стратегии декодирования, основанные на прямой максимизации правдоподобия, часто дают некачественный результат в задачах открытой генерации текста.^[1]

Простое объяснение

Нейронная дегенерация текста — это ситуация, когда модель формально продолжает текст, но делает это плохо с точки зрения естественной речи.

Обычно это выглядит так:

модель начинает повторять одни и те же слова или фразы;
текст становится слишком шаблонным и «безжизненным»;
ответ теряет смысловую связность;
в продолжение начинают попадать случайные или неудачные слова.

Иными словами, модель либо становится слишком «осторожной» и всё время выбирает одно и то же, либо, наоборот, получает слишком много свободы и начинает тянуть слабые и шумовые продолжения. В обоих случаях текст перестаёт быть похожим на естественную человеческую речь.^[1]

История изучения

Проблема была подробно сформулирована Хольцманом и соавт. в 2019 году на материале открытой генерации текста — прежде всего историй, свободных продолжений и диалоговых ответов. Авторы показали, что методы декодирования, ориентированные на максимизацию вероятности, такие как жадный поиск (greedy search) и лучевой поиск (beam search), в открытых задачах нередко приводят к неестественным, повторяющимся и малосодержательным последовательностям.^[1]

В той же работе было показано, что и противоположный подход — чистое стохастическое сэмплирование без усечения — также проблематичен, поскольку модель может выбирать токены из «ненадёжного хвоста» распределения вероятностей. Это ухудшает связность и повышает риск случайных, плохо согласованных продолжений.^[1]

Позднейшие работы уточнили и расширили это объяснение. В частности, Finlayson и соавт. предложили теоретическую интерпретацию того, почему методы усечения (например, Top-p) часто помогают уменьшать вырождение текста: усечение хвоста позволяет избегать токенов, для которых модель особенно ненадёжна.^[2]

Meister и соавт. дополнительно связали проблему дегенерации с нарушением локальной типичности: человеческий текст, как правило, стремится поддерживать информационное содержание, близкое к ожидаемой условной энтропии, а не просто максимизировать вероятность каждого следующего токена.^[3]

Основные проявления

Нейронная дегенерация текста может проявляться не только в виде явных повторов, но и в более скрытых формах: от смыслового обеднения до постепенного распада связности. Внешне такие тексты нередко остаются грамматически правильными, однако начинают заметно отличаться от естественной человеческой речи по разнообразию, информативности и устойчивости развития мысли.^[1]^[3]

Повторения и зацикливание

Наиболее известная форма — повторение токенов, фраз или целых синтаксических конструкций. Текст начинает «ходить по кругу», добавляя почти одинаковые продолжения снова и снова.^[1]

Такое вырождение может проявляться на разных уровнях:

как повтор отдельных слов;
как навязчивое воспроизведение одной и той же фразы;
как циклическое возвращение к одной и той же мысли;
как многократное копирование одной и той же синтаксической схемы с минимальными изменениями.^[1]

Особенно характерно, что повторы нередко становятся самоподдерживающимися: однажды возникшая конструкция начинает усиливать сама себя, поскольку модель продолжает опираться на уже сгенерированный фрагмент и воспроизводит его снова в слегка изменённом виде. В результате текст может сохранять видимость движения вперёд, но фактически перестаёт развиваться содержательно.^[1]

Шаблонность и обеднение содержания

Даже если явных циклов нет, модель может выдавать слишком предсказуемый и малосодержательный текст. Такой вывод остаётся грамматически корректным, но становится банальным, однообразным и бедным по информационному содержанию.^[1]

В этой форме дегенерации текст обычно выглядит «правильным», но производит впечатление чрезмерно безопасного и усреднённого. Модель предпочитает наиболее ожидаемые слова и обороты, из-за чего:

снижается лексическое разнообразие;
чаще повторяются одни и те же речевые шаблоны;
исчезают менее очевидные, но более содержательные формулировки;
текст становится более гладким по форме, но беднее по смыслу.^[1]^[3]

Именно поэтому дегенерация не всегда выглядит как явная ошибка: иногда она проявляется как слишком предсказуемый, «ровный» и пустой текст, который формально написан правильно, но почти не даёт новой информации.^[1]^[3]

Потеря связности

При избыточной случайности или слабом контроле над хвостом распределения генерация может сохранять локальную грамматическую правильность, но терять общую смысловую связанность: в текст начинают попадать неуместные слова, неожиданные переходы темы и логические разрывы.^[1]

В такой ситуации соседние фразы могут по отдельности выглядеть допустимыми, однако между ними ослабевают причинно-следственные, тематические и логические связи. Это проявляется в том, что:

предложение грамматически корректно, но плохо связано с предыдущим;
мысль внезапно меняет направление без ясного перехода;
в тексте появляются локально допустимые, но контекстно неуместные продолжения;
общий ход рассуждения становится рыхлым и неустойчивым.^[1]

Иными словами, модель может сохранять локальную гладкость на уровне отдельных фраз, но терять глобальную связность на уровне всего абзаца или длинного ответа.^[1]

Семантический дрейф

Ещё одна форма вырождения — постепенное смещение смысла, при котором текст не рушится мгновенно, а медленно уходит в сторону от исходной темы, задачи или линии повествования.^[1]

В отличие от явной бессвязности, здесь деградация развивается постепенно:

модель начинает с релевантного ответа;
затем добавляет всё более общие или слабо связанные детали;
после этого исходная тема размывается;
в конце текст может остаться формально плавным, но уже плохо отвечать на исходный запрос.^[1]

Такой дрейф особенно заметен в длинной генерации: модель не обязательно впадает в циклы, но шаг за шагом теряет тематическую дисциплину, и продолжение перестаёт быть по-настоящему релевантным.^[1]

Снижение информативности

Вырождение может выражаться не только в повторах, но и в том, что текст перестаёт добавлять новую информацию. Модель продолжает писать, однако семантическая «плотность» вывода снижается, и продолжение становится пустым по содержанию.^[3]

В таком тексте слова и предложения продолжают накапливаться, но смысловое продвижение замедляется. Новые фразы:

переформулируют уже сказанное;
добавляют минимальное количество новых фактов;
заменяют конкретику общими словами;
поддерживают объём текста без сопоставимого роста содержания.^[3]

Это особенно важно, поскольку подобная деградация может выглядеть менее заметной, чем явные повторы: текст кажется «нормальным», но при внимательном чтении оказывается, что он в основном повторяет одну и ту же мысль разными словами.^[3]

Скрытая дегенерация без явных сбоев

Не всякая нейронная дегенерация выглядит как грубая поломка. В ряде случаев текст не содержит явных циклов, резких логических обрывов или очевидного «шума», однако всё равно заметно отклоняется от естественного человеческого письма.^[1]^[3]

Такая скрытая форма проявляется как сочетание:

чрезмерной предсказуемости;
однотипного ритма фраз;
безопасных, но слабых формулировок;
недостатка неожиданности, нюансов и смысловой глубины.^[1]^[3]

Именно поэтому нейронная дегенерация текста не сводится только к зацикливанию. Она охватывает более широкий спектр симптомов — от явных повторов до тонкого смыслового обеднения, при котором текст остаётся формально правильным, но теряет разнообразие, выразительность и содержательную ценность.^[1]^[3]^[2]

Причины

Несовпадение между обучением и декодированием

Языковые модели обычно обучаются предсказывать следующий токен по вероятностному распределению. Однако при генерации текст нередко извлекается не как выборка из этого распределения, а с помощью процедур, которые жёстко максимизируют вероятность на каждом шаге или по всей последовательности. Это различие между целями обучения и правилами декодирования является одной из ключевых причин вырождения в открытых задачах.^[1]

«Ненадёжный хвост» распределения

С другой стороны, полная свобода сэмплирования тоже может быть вредна. Даже очень маловероятные токены обычно имеют ненулевую вероятность, и среди них находится множество слабых, шумовых или плохо согласованных вариантов. Если модель выбирает токен из такого хвоста, качество продолжения может резко ухудшиться.^[1]^[2]

Нарушение локальной типичности

Meister и соавт. связывают вырождение с тем, что естественный текст обычно поддерживает информационное содержание, близкое к ожидаемой условной энтропии. Когда декодирование систематически уходит от этой «типичности», текст может становиться либо слишком банальным, либо слишком шумным.^[3]

Связь с методами декодирования

Нейронная дегенерация текста тесно связана не только с качеством самой языковой модели, но и с тем, как именно из её вероятностного распределения выбирается следующий токен. Один и тот же набор вероятностей может давать заметно разный результат в зависимости от стратегии декодирования: одни методы усиливают повторы и шаблонность, другие — повышают разнообразие, но рискуют потерять связность, третьи пытаются удержать компромисс между этими крайностями.^[1]

Жадный поиск и beam search

Жадный поиск и лучевой поиск особенно склонны к повторениям и шаблонности в задачах открытой генерации, поскольку систематически предпочитают наиболее вероятные продолжения.^[1]

В случае жадного поиска модель на каждом шаге выбирает один самый вероятный токен. Такой подход хорошо работает там, где у задачи есть сравнительно узкий набор корректных ответов, однако в свободной генерации он часто делает текст слишком предсказуемым. Модель снова и снова выбирает наиболее «безопасные» продолжения, из-за чего:

усиливается склонность к повторению уже выбранных конструкций;
уменьшается разнообразие формулировок;
текст становится более шаблонным и бедным по содержанию.^[1]

Лучевой поиск (beam search) частично расширяет пространство поиска, поскольку отслеживает сразу несколько наиболее вероятных гипотез. Однако в задачах открытого текста это не всегда спасает от вырождения. Напротив, из-за общей ориентации на максимизацию правдоподобия он также может систематически отдавать предпочтение слишком «правильным», но малоестественным продолжениям, что повышает риск:

однообразия;
повторяемости;
избыточно гладкого, но малосодержательного текста.^[1]

Иными словами, методы, которые слишком последовательно выбирают наиболее вероятное продолжение, часто выигрывают в локальной предсказуемости, но проигрывают в естественности длинной генерации.^[1]

Чистое сэмплирование

Нестрого ограниченное сэмплирование повышает разнообразие, но без дополнительных фильтров чаще захватывает слабые токены из хвоста распределения, что может ухудшать связность текста.^[1]

При чистом сэмплировании следующий токен выбирается случайно в соответствии с полным вероятностным распределением модели. В отличие от жадного поиска или beam search, такой подход даёт модели больше свободы и помогает избегать слишком раннего «застревания» в одном и том же шаблоне.^[1]

Однако у этой свободы есть обратная сторона. Даже если вероятность многих токенов очень мала, они обычно всё равно имеют ненулевой шанс быть выбранными. Из-за этого модель может захватывать продолжения из «хвоста» распределения, где чаще встречаются:

случайные и контекстно слабые слова;
плохо согласованные продолжения;
токены, которые локально допустимы, но ухудшают общую связность текста.^[1]

В результате чистое сэмплирование часто уменьшает шаблонность, но одновременно делает текст менее устойчивым: он может оставаться разнообразным, но становится более рыхлым, непоследовательным или семантически нестабильным.^[1]

Методы усечения распределения

Методы усечения распределения — прежде всего Top-p и Top-k — были предложены как практический способ уменьшить вырождение. Они ограничивают множество допустимых токенов и тем самым снижают вероятность неудачных продолжений.^[1]^[2]

Общая логика этих методов состоит в том, чтобы не позволять модели выбирать следующий токен из всего словаря. Вместо этого рассматривается только наиболее правдоподобная часть распределения:

Top-k оставляет фиксированное число наиболее вероятных токенов;
Top-p оставляет динамическое «ядро» токенов, суммарная вероятность которых достигает заданного порога.^[1]

Такое ограничение уменьшает риск того, что модель выберет слишком слабое продолжение из ненадёжного хвоста, но при этом не заставляет её каждый раз брать только один-единственный «лучший» вариант. За счёт этого методы усечения часто оказываются промежуточным решением между двумя крайностями:

слишком жёсткой максимизацией;
слишком свободным и шумным сэмплированием.^[1]

Позднее Finlayson и соавт. предложили более строгую теоретическую интерпретацию этой эффективности. Они показывают, что truncation-методы помогают отбрасывать токены, которые с большей вероятностью являются ненадёжными с точки зрения истинного распределения текста. Поэтому усечение можно рассматривать не только как инженерный эвристический приём, но и как способ уменьшить вероятность систематических ошибок при выборе следующего токена.^[2]

Современные стратегии

Более поздние методы, такие как locally typical sampling, стремятся уменьшить дегенеративные повторы, сохраняя при этом качество генерации.^[3] Аналогично, contrastive search был предложен как способ повысить разнообразие, не жертвуя связностью текста.^[4]

Эти методы развивают идею, что проблема заключается не только в том, сколько токенов оставлять, но и в том, какие именно токены стоит считать хорошими кандидатами.

Locally typical sampling ориентируется не просто на высокую вероятность, а на близость информационного содержания токена к ожидаемой условной энтропии. Это позволяет уменьшать ситуации, когда модель:

выбирает слишком банальные и «пустые» продолжения;
застревает в дегенеративных повторах;
становится слишком предсказуемой даже без явных циклов.^[3]

Contrastive search использует иную логику: он стремится выбирать продолжения, которые одновременно остаются правдоподобными и не слишком похожими на уже сгенерированный контекст. За счёт этого уменьшается вероятность того, что модель будет усиливать одни и те же конструкции просто потому, что они локально очень вероятны.^[4]

По сравнению с классическими decoding-стратегиями эти методы пытаются не просто ограничить выбор, а сделать сам критерий выбора более чувствительным к качеству длинной генерации — то есть к тому, будет ли текст оставаться содержательным, разнообразным и связным на протяжении нескольких предложений или абзацев.^[3]^[4]

Зависимость от режима декодирования

Связь между нейронной дегенерацией и декодированием не сводится к противопоставлению «хороших» и «плохих» методов. Один и тот же алгоритм может вести себя по-разному в зависимости от того, насколько жёстко или свободно он ограничивает распределение на каждом шаге.^[1]

В общем виде можно выделить три режима:

слишком жёсткий выбор — модель почти всегда берёт самые вероятные токены, что усиливает шаблонность и повторы;
слишком свободный выбор — модель получает слишком широкий доступ к слабым продолжениям, что повышает риск бессвязности;
умеренно ограниченный выбор — модель сохраняет разнообразие, но остаётся в пределах достаточно надёжной части распределения.^[1]^[2]

Именно поэтому нейронная дегенерация часто рассматривается как следствие не только качества самой модели, но и неудачного режима декодирования: слишком жёсткого, слишком мягкого или плохо согласованного с конкретной задачей генерации.^[1]^[3]

Проще говоря, вырождение чаще возникает на двух крайностях: когда модель либо слишком жёстко выбирает только самые вероятные слова, либо, наоборот, получает слишком много свободы и начинает тянуть случайные слабые продолжения. Наиболее устойчивые стратегии обычно находятся между этими крайними режимами.^[1]^[2]

Методы смягчения

Хотя универсального способа полностью устранить нейронную дегенерацию текста не существует, на практике разработан ряд методов, которые позволяют заметно снизить её наиболее типичные проявления — прежде всего повторы, шаблонность, потерю связности и захват «шумового» хвоста распределения. Эти методы различаются по тому, как именно они ограничивают выбор следующего токена: одни просто отсекают слабые варианты, другие учитывают форму распределения более тонко, третьи пытаются напрямую балансировать связность и разнообразие.^[1]^[2]^[5]

Усечение распределения

Самый распространённый способ борьбы с нейронной дегенерацией — ограничивать выбор следующего токена не всем словарём, а только наиболее правдоподобной его частью. Именно на этом основаны Top-p и Top-k.^[1]^[2]

Основная идея этих методов состоит в том, что модель не должна свободно выбирать среди всех возможных токенов, поскольку значительная часть распределения находится в «ненадёжном хвосте», где скапливаются слабые, шумовые или плохо согласованные варианты. Усечение позволяет искусственно сузить пространство выбора и тем самым уменьшить вероятность того, что генерация резко уйдёт в бессвязность или начнёт распадаться.^[1]^[2]

На практике используются две наиболее известные схемы:

Top-k — оставляет только фиксированное число наиболее вероятных токенов;
Top-p (nucleus sampling) — оставляет динамическое «ядро» токенов, суммарная вероятность которых достигает заданного порога $p$ .^[1]

Их общий смысл один: не давать модели выбирать из слишком большого количества слабых продолжений. При этом Top-p обычно считается более гибким, поскольку размер допустимого множества меняется от шага к шагу в зависимости от текущей формы распределения.^[1]

Finlayson и соавт. предложили более строгую интерпретацию того, почему truncation-методы часто работают: усечение помогает отбрасывать токены, которые могут не принадлежать поддержке «истинного» распределения текста, то есть являются особенно ненадёжными с точки зрения модели. Поэтому такие методы не просто механически «режут хвост», а фактически снижают вероятность систематических ошибок на этапе выбора токена.^[2]

Проще говоря, усечение распределения помогает модели не заходить слишком далеко в область слабых и случайных вариантов. За счёт этого текст чаще остаётся более связным, естественным и менее склонным к вырождению.

Более адаптивные методы сэмплирования

Locally typical sampling, η-сэмплирование и родственные подходы пытаются не просто «отрезать хвост», а учитывать форму распределения и информационную структуру текущего шага генерации.^[3]

В отличие от простого усечения, такие методы стремятся учитывать не только то, насколько вероятен токен, но и то, насколько он типичен для данного контекста. Это важно, потому что дегенерация возникает не только из-за слишком слабых токенов, но и из-за чрезмерного предпочтения слишком «безопасных» и банальных продолжений.^[3]

Например, locally typical sampling ориентируется на близость информационного содержания токена к ожидаемой условной энтропии. Иными словами, он старается выбирать не просто самые вероятные слова, а те, которые лучше соответствуют «нормальному» уровню информативности для данного контекста. Это позволяет уменьшать:

дегенеративные повторы;
чрезмерную шаблонность;
смысловое обеднение текста при сохранении общей связности.^[3]

Схожую логику используют и другие адаптивные методы: вместо простого фиксированного отсечения они стремятся подстраиваться под текущее состояние распределения. За счёт этого модель меньше склонна впадать в две крайности:

либо становиться слишком предсказуемой и «плоской»;
либо захватывать слишком слабые и шумовые продолжения.^[3]

Такие методы обычно сложнее в интерпретации и настройке, чем Top-k или Top-p, однако они могут лучше справляться с тонкими формами дегенерации, где проблема состоит не в явной бессвязности, а в потере информативности и повторяемости речевых шаблонов.^[3]^[5]

Проще говоря, более адаптивные методы пытаются не просто убрать слабые слова, а оставить те продолжения, которые лучше подходят текущему контексту по смыслу и «естественности».

Contrastive search

Contrastive search и близкие методы стремятся одновременно поддерживать связность и разнообразие, уменьшая повторы, которые часто возникают у strictly maximization-based decoding.^[4]

Идея contrastive-подхода состоит в том, чтобы не полагаться только на вероятность следующего токена. Вместо этого выбор кандидата строится как компромисс между двумя требованиями:

продолжение должно быть достаточно правдоподобным;
продолжение не должно быть слишком похожим на уже сгенерированный контекст и тем самым усиливать повторение.^[4]

За счёт этого contrastive search пытается подавлять именно те продолжения, которые формально выглядят очень вероятными, но практически ведут к зацикливанию, шаблонности или чрезмерно однотипной генерации. В отличие от чистого сэмплирования, этот подход не вводит случайность как основной механизм борьбы с вырождением, а старается целенаправленно выбирать достаточно вероятные, но менее дегенеративные продолжения.^[4]

Такие методы особенно важны потому, что классические maximization-based стратегии часто дают высокую локальную уверенность, но платят за это естественностью текста. Contrastive search пытается сохранить сильные стороны детерминированного выбора — связность и устойчивость — при одновременном снижении повторов и однообразия.^[4]

Проще говоря, contrastive search старается не брать продолжение только потому, что оно самое вероятное. Он дополнительно «штрафует» слишком однообразные варианты, чтобы текст не зацикливался и не становился слишком шаблонным.

Подбор стратегии под задачу

Более поздние исследования подчёркивают, что универсального метода нет: эффективность конкретной decoding-стратегии зависит от типа задачи, размера модели, выравнивания и других факторов. То, что хорошо работает для диалоговой генерации или эссе, может работать хуже в коде, математике или иных детерминированных доменах.^[5]

Это означает, что борьба с нейронной дегенерацией — не только выбор «лучшего» алгоритма, но и сопоставление метода с типом задачи. В открытой генерации (истории, диалоги, длинные ответы) методы сэмплирования и более гибкие схемы отбора часто помогают сохранить разнообразие и естественность. В более жёстких и детерминированных задачах — например, в программировании, математике или задачах с однозначным правильным ответом — слишком агрессивная стохастика, наоборот, может снижать качество результата.^[5]

Shi и соавт. также показывают, что на итоговый результат влияют не только сама стратегия декодирования, но и:

размер модели;
степень её выравнивания;
чувствительность к гиперпараметрам;
среда развёртывания и ограничения инференса.^[5]

Отсюда следует важный практический вывод: один и тот же метод может выглядеть сильным в одной конфигурации и заметно слабее — в другой. Поэтому смягчение нейронной дегенерации на практике почти всегда требует подбора параметров и проверки на конкретном классе задач, а не опоры на один «универсальный» рецепт.^[5]

Проще говоря, хороший способ декодирования зависит от того, что именно делает модель. Для свободного текста лучше работают одни методы, для кода, математики и других точных задач — другие.

Комбинирование методов

На практике методы смягчения нередко применяются не изолированно, а в сочетании друг с другом. Например, усечение распределения может использоваться вместе с температурой, а более сложные стратегии — сочетаться с дополнительными ограничениями на выбор токенов.^[1]^[5]

Смысл таких комбинаций состоит в том, чтобы разделить функции:

один механизм задаёт общий уровень разнообразия;
другой ограничивает «шумовой» хвост;
третий снижает риск повторов или шаблонности.^[1]^[4]

Однако увеличение числа одновременно настраиваемых механизмов усложняет контроль над поведением модели. Поэтому более сложная схема не всегда означает более качественный результат: выигрыш часто зависит от того, насколько хорошо подобраны гиперпараметры и насколько конкретная комбинация соответствует задаче.^[5]

Иными словами, смягчение нейронной дегенерации чаще всего строится не на одном «магическом» методе, а на аккуратном сочетании нескольких ограничений, каждое из которых устраняет свою часть проблемы.

Не следует путать с model collapse

Нейронную дегенерацию текста в смысле Holtzman и соавт. не следует смешивать с model collapse — отдельным явлением, изучаемым в работах о рекурсивном обучении моделей на синтетических данных.

В первом случае речь идёт прежде всего о вырождении текста на этапе генерации (inference), когда неудачная стратегия декодирования приводит к повторам, шаблонности или потере связности.^[1] Во втором — о деградации модели на этапе обучения, когда сгенерированные моделью данные начинают «загрязнять» обучающий набор следующего поколения моделей, что может приводить к исчезновению редких событий и сужению распределения.^[6]

Эти явления тематически связаны, поскольку оба касаются ухудшения качества нейросетевого текста, однако в литературе обычно рассматриваются как разные проблемы: одна относится к декодированию, другая — к данным и обучению.^[1]^[6]

Значение для больших языковых моделей

В эпоху больших языковых моделей проблема нейронной дегенерации не исчезла, а сместилась из области небольших генераторов текста в область управления поведением более мощных систем. Хотя современные LLM обычно лучше выровнены и реже впадают в грубые циклы повторов, выбор decoding-стратегии по-прежнему заметно влияет на естественность, разнообразие и устойчивость вывода.^[5]

Из-за этого нейронная дегенерация текста рассматривается не как узкий дефект ранних языковых моделей, а как фундаментальная проблема практической генерации: хорошее вероятностное моделирование само по себе не гарантирует хорошего текста на этапе инференса.^[1]^[2]

См. также

Литература

Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2019; опубликовано на ICLR 2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
Finlayson, M., Hewitt, J., Koller, A., Swayamdipta, S., & Sabharwal, A. (2024). Closing the Curious Case of Neural Text Degeneration. arXiv:2310.01693.
Meister, C., Pimentel, T., Wiher, G., & Cotterell, R. (2023). Locally Typical Sampling. TACL 2023.
Shi, C., Yang, H., Cai, D., Zhang, Z., Wang, Y., Yang, Y., & Lam, W. (2024). A Thorough Examination of Decoding Methods in the Era of LLMs. EMNLP 2024.
Su, Y., Lan, T., Wang, Y., Yogatama, D., Kong, L., & Collier, N. (2022). A Contrastive Framework for Neural Text Generation. arXiv:2202.06417.
Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature 2024.

Примечания

↑ ^1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 ^1,47 Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2019). The Curious Case of Neural Text Degeneration. arXiv:1904.09751. [1]
↑ ^2,00 ^2,01 ^2,02 ^2,03 ^2,04 ^2,05 ^2,06 ^2,07 ^2,08 ^2,09 ^2,10 ^2,11 Finlayson, M., Hewitt, J., Koller, A., Swayamdipta, S., & Sabharwal, A. (2024). Closing the Curious Case of Neural Text Degeneration. arXiv:2310.01693. [2]
↑ ^3,00 ^3,01 ^3,02 ^3,03 ^3,04 ^3,05 ^3,06 ^3,07 ^3,08 ^3,09 ^3,10 ^3,11 ^3,12 ^3,13 ^3,14 ^3,15 ^3,16 ^3,17 ^3,18 ^3,19 Meister, C., Pimentel, T., Wiher, G., & Cotterell, R. (2023). Locally Typical Sampling. Transactions of the Association for Computational Linguistics, 11. [3]
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 ^4,7 Su, Y., Lan, T., Wang, Y., Yogatama, D., Kong, L., & Collier, N. (2022). A Contrastive Framework for Neural Text Generation. arXiv:2202.06417. [4]
↑ ^5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 ^5,7 ^5,8 Shi, C., Yang, H., Cai, D., Zhang, Z., Wang, Y., Yang, Y., & Lam, W. (2024). A Thorough Examination of Decoding Methods in the Era of LLMs. EMNLP 2024. [5]
↑ ^6,0 ^6,1 Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature. [6]

[holtzman2019-1] 1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 ^1,47 Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2019). The Curious Case of Neural Text Degeneration. arXiv:1904.09751. [1]

[finlayson2024-2] 2,00 ^2,01 ^2,02 ^2,03 ^2,04 ^2,05 ^2,06 ^2,07 ^2,08 ^2,09 ^2,10 ^2,11 Finlayson, M., Hewitt, J., Koller, A., Swayamdipta, S., & Sabharwal, A. (2024). Closing the Curious Case of Neural Text Degeneration. arXiv:2310.01693. [2]

[meister2023-3] 3,00 ^3,01 ^3,02 ^3,03 ^3,04 ^3,05 ^3,06 ^3,07 ^3,08 ^3,09 ^3,10 ^3,11 ^3,12 ^3,13 ^3,14 ^3,15 ^3,16 ^3,17 ^3,18 ^3,19 Meister, C., Pimentel, T., Wiher, G., & Cotterell, R. (2023). Locally Typical Sampling. Transactions of the Association for Computational Linguistics, 11. [3]

[contrastive2022-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 ^4,7 Su, Y., Lan, T., Wang, Y., Yogatama, D., Kong, L., & Collier, N. (2022). A Contrastive Framework for Neural Text Generation. arXiv:2202.06417. [4]

[shi2024-5] 5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 ^5,7 ^5,8 Shi, C., Yang, H., Cai, D., Zhang, Z., Wang, Y., Yang, Y., & Lam, W. (2024). A Thorough Examination of Decoding Methods in the Era of LLMs. EMNLP 2024. [5]

[shumailov2024-6] 6,0 ^6,1 Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature. [6]

[1]

[2]

[3]

[4]

[5]

[6]

Нейронная дегенерация текста

Содержание

Простое объяснение

История изучения

Основные проявления

Повторения и зацикливание

Шаблонность и обеднение содержания

Потеря связности

Семантический дрейф

Снижение информативности

Скрытая дегенерация без явных сбоев

Причины

Несовпадение между обучением и декодированием

«Ненадёжный хвост» распределения

Нарушение локальной типичности

Связь с методами декодирования

Жадный поиск и beam search

Чистое сэмплирование

Методы усечения распределения

Современные стратегии

Зависимость от режима декодирования

Методы смягчения

Усечение распределения

Более адаптивные методы сэмплирования

Contrastive search

Подбор стратегии под задачу

Комбинирование методов

Не следует путать с model collapse

Значение для больших языковых моделей

См. также

Литература

Примечания

Навигация

Нейронная дегенерация текста

Простое объяснение

История изучения

Основные проявления

Повторения и зацикливание

Шаблонность и обеднение содержания

Потеря связности

Семантический дрейф

Снижение информативности

Скрытая дегенерация без явных сбоев

Причины

Несовпадение между обучением и декодированием

«Ненадёжный хвост» распределения

Нарушение локальной типичности

Связь с методами декодирования

Жадный поиск и beam search

Чистое сэмплирование

Методы усечения распределения

Современные стратегии

Зависимость от режима декодирования

Методы смягчения

Усечение распределения

Более адаптивные методы сэмплирования

Contrastive search

Подбор стратегии под задачу

Комбинирование методов

Не следует путать с model collapse

Значение для больших языковых моделей

См. также

Литература

Примечания

Навигация

Поиск