Нейронная дегенерация текста
Нейронная дегенерация текста, также вырождение текста при нейронной генерации (англ. Neural Text Degeneration), — это класс патологий генерации текста в нейронных языковых моделях, при котором вывод становится неестественным: чрезмерно повторяющимся, шаблонным, малосодержательным или теряет связность. Термин получил широкое распространение после работы Ари Хольцмана и соавт. The Curious Case of Neural Text Degeneration (2019; ICLR 2020), где было показано, что стратегии декодирования, основанные на прямой максимизации правдоподобия, часто дают некачественный результат в задачах открытой генерации текста.[1]
Простое объяснение
Нейронная дегенерация текста — это ситуация, когда модель формально продолжает текст, но делает это плохо с точки зрения естественной речи.
Обычно это выглядит так:
- модель начинает повторять одни и те же слова или фразы;
- текст становится слишком шаблонным и «безжизненным»;
- ответ теряет смысловую связность;
- в продолжение начинают попадать случайные или неудачные слова.
Иными словами, модель либо становится слишком «осторожной» и всё время выбирает одно и то же, либо, наоборот, получает слишком много свободы и начинает тянуть слабые и шумовые продолжения. В обоих случаях текст перестаёт быть похожим на естественную человеческую речь.[1]
История изучения
Проблема была подробно сформулирована Хольцманом и соавт. в 2019 году на материале открытой генерации текста — прежде всего историй, свободных продолжений и диалоговых ответов. Авторы показали, что методы декодирования, ориентированные на максимизацию вероятности, такие как жадный поиск (greedy search) и лучевой поиск (beam search), в открытых задачах нередко приводят к неестественным, повторяющимся и малосодержательным последовательностям.[1]
В той же работе было показано, что и противоположный подход — чистое стохастическое сэмплирование без усечения — также проблематичен, поскольку модель может выбирать токены из «ненадёжного хвоста» распределения вероятностей. Это ухудшает связность и повышает риск случайных, плохо согласованных продолжений.[1]
Позднейшие работы уточнили и расширили это объяснение. В частности, Finlayson и соавт. предложили теоретическую интерпретацию того, почему методы усечения (например, Top-p) часто помогают уменьшать вырождение текста: усечение хвоста позволяет избегать токенов, для которых модель особенно ненадёжна.[2]
Meister и соавт. дополнительно связали проблему дегенерации с нарушением локальной типичности: человеческий текст, как правило, стремится поддерживать информационное содержание, близкое к ожидаемой условной энтропии, а не просто максимизировать вероятность каждого следующего токена.[3]
Основные проявления
Нейронная дегенерация текста может проявляться не только в виде явных повторов, но и в более скрытых формах: от смыслового обеднения до постепенного распада связности. Внешне такие тексты нередко остаются грамматически правильными, однако начинают заметно отличаться от естественной человеческой речи по разнообразию, информативности и устойчивости развития мысли.[1][3]
Повторения и зацикливание
Наиболее известная форма — повторение токенов, фраз или целых синтаксических конструкций. Текст начинает «ходить по кругу», добавляя почти одинаковые продолжения снова и снова.[1]
Такое вырождение может проявляться на разных уровнях:
- как повтор отдельных слов;
- как навязчивое воспроизведение одной и той же фразы;
- как циклическое возвращение к одной и той же мысли;
- как многократное копирование одной и той же синтаксической схемы с минимальными изменениями.[1]
Особенно характерно, что повторы нередко становятся самоподдерживающимися: однажды возникшая конструкция начинает усиливать сама себя, поскольку модель продолжает опираться на уже сгенерированный фрагмент и воспроизводит его снова в слегка изменённом виде. В результате текст может сохранять видимость движения вперёд, но фактически перестаёт развиваться содержательно.[1]
Шаблонность и обеднение содержания
Даже если явных циклов нет, модель может выдавать слишком предсказуемый и малосодержательный текст. Такой вывод остаётся грамматически корректным, но становится банальным, однообразным и бедным по информационному содержанию.[1]
В этой форме дегенерации текст обычно выглядит «правильным», но производит впечатление чрезмерно безопасного и усреднённого. Модель предпочитает наиболее ожидаемые слова и обороты, из-за чего:
- снижается лексическое разнообразие;
- чаще повторяются одни и те же речевые шаблоны;
- исчезают менее очевидные, но более содержательные формулировки;
- текст становится более гладким по форме, но беднее по смыслу.[1][3]
Именно поэтому дегенерация не всегда выглядит как явная ошибка: иногда она проявляется как слишком предсказуемый, «ровный» и пустой текст, который формально написан правильно, но почти не даёт новой информации.[1][3]
Потеря связности
При избыточной случайности или слабом контроле над хвостом распределения генерация может сохранять локальную грамматическую правильность, но терять общую смысловую связанность: в текст начинают попадать неуместные слова, неожиданные переходы темы и логические разрывы.[1]
В такой ситуации соседние фразы могут по отдельности выглядеть допустимыми, однако между ними ослабевают причинно-следственные, тематические и логические связи. Это проявляется в том, что:
- предложение грамматически корректно, но плохо связано с предыдущим;
- мысль внезапно меняет направление без ясного перехода;
- в тексте появляются локально допустимые, но контекстно неуместные продолжения;
- общий ход рассуждения становится рыхлым и неустойчивым.[1]
Иными словами, модель может сохранять локальную гладкость на уровне отдельных фраз, но терять глобальную связность на уровне всего абзаца или длинного ответа.[1]
Семантический дрейф
Ещё одна форма вырождения — постепенное смещение смысла, при котором текст не рушится мгновенно, а медленно уходит в сторону от исходной темы, задачи или линии повествования.[1]
В отличие от явной бессвязности, здесь деградация развивается постепенно:
- модель начинает с релевантного ответа;
- затем добавляет всё более общие или слабо связанные детали;
- после этого исходная тема размывается;
- в конце текст может остаться формально плавным, но уже плохо отвечать на исходный запрос.[1]
Такой дрейф особенно заметен в длинной генерации: модель не обязательно впадает в циклы, но шаг за шагом теряет тематическую дисциплину, и продолжение перестаёт быть по-настоящему релевантным.[1]
Снижение информативности
Вырождение может выражаться не только в повторах, но и в том, что текст перестаёт добавлять новую информацию. Модель продолжает писать, однако семантическая «плотность» вывода снижается, и продолжение становится пустым по содержанию.[3]
В таком тексте слова и предложения продолжают накапливаться, но смысловое продвижение замедляется. Новые фразы:
- переформулируют уже сказанное;
- добавляют минимальное количество новых фактов;
- заменяют конкретику общими словами;
- поддерживают объём текста без сопоставимого роста содержания.[3]
Это особенно важно, поскольку подобная деградация может выглядеть менее заметной, чем явные повторы: текст кажется «нормальным», но при внимательном чтении оказывается, что он в основном повторяет одну и ту же мысль разными словами.[3]
Скрытая дегенерация без явных сбоев
Не всякая нейронная дегенерация выглядит как грубая поломка. В ряде случаев текст не содержит явных циклов, резких логических обрывов или очевидного «шума», однако всё равно заметно отклоняется от естественного человеческого письма.[1][3]
Такая скрытая форма проявляется как сочетание:
- чрезмерной предсказуемости;
- однотипного ритма фраз;
- безопасных, но слабых формулировок;
- недостатка неожиданности, нюансов и смысловой глубины.[1][3]
Именно поэтому нейронная дегенерация текста не сводится только к зацикливанию. Она охватывает более широкий спектр симптомов — от явных повторов до тонкого смыслового обеднения, при котором текст остаётся формально правильным, но теряет разнообразие, выразительность и содержательную ценность.[1][3][2]
Причины
Несовпадение между обучением и декодированием
Языковые модели обычно обучаются предсказывать следующий токен по вероятностному распределению. Однако при генерации текст нередко извлекается не как выборка из этого распределения, а с помощью процедур, которые жёстко максимизируют вероятность на каждом шаге или по всей последовательности. Это различие между целями обучения и правилами декодирования является одной из ключевых причин вырождения в открытых задачах.[1]
«Ненадёжный хвост» распределения
С другой стороны, полная свобода сэмплирования тоже может быть вредна. Даже очень маловероятные токены обычно имеют ненулевую вероятность, и среди них находится множество слабых, шумовых или плохо согласованных вариантов. Если модель выбирает токен из такого хвоста, качество продолжения может резко ухудшиться.[1][2]
Нарушение локальной типичности
Meister и соавт. связывают вырождение с тем, что естественный текст обычно поддерживает информационное содержание, близкое к ожидаемой условной энтропии. Когда декодирование систематически уходит от этой «типичности», текст может становиться либо слишком банальным, либо слишком шумным.[3]
Связь с методами декодирования
Нейронная дегенерация текста тесно связана не только с качеством самой языковой модели, но и с тем, как именно из её вероятностного распределения выбирается следующий токен. Один и тот же набор вероятностей может давать заметно разный результат в зависимости от стратегии декодирования: одни методы усиливают повторы и шаблонность, другие — повышают разнообразие, но рискуют потерять связность, третьи пытаются удержать компромисс между этими крайностями.[1]
Жадный поиск и beam search
Жадный поиск и лучевой поиск особенно склонны к повторениям и шаблонности в задачах открытой генерации, поскольку систематически предпочитают наиболее вероятные продолжения.[1]
В случае жадного поиска модель на каждом шаге выбирает один самый вероятный токен. Такой подход хорошо работает там, где у задачи есть сравнительно узкий набор корректных ответов, однако в свободной генерации он часто делает текст слишком предсказуемым. Модель снова и снова выбирает наиболее «безопасные» продолжения, из-за чего:
- усиливается склонность к повторению уже выбранных конструкций;
- уменьшается разнообразие формулировок;
- текст становится более шаблонным и бедным по содержанию.[1]
Лучевой поиск (beam search) частично расширяет пространство поиска, поскольку отслеживает сразу несколько наиболее вероятных гипотез. Однако в задачах открытого текста это не всегда спасает от вырождения. Напротив, из-за общей ориентации на максимизацию правдоподобия он также может систематически отдавать предпочтение слишком «правильным», но малоестественным продолжениям, что повышает риск:
- однообразия;
- повторяемости;
- избыточно гладкого, но малосодержательного текста.[1]
Иными словами, методы, которые слишком последовательно выбирают наиболее вероятное продолжение, часто выигрывают в локальной предсказуемости, но проигрывают в естественности длинной генерации.[1]
Чистое сэмплирование
Нестрого ограниченное сэмплирование повышает разнообразие, но без дополнительных фильтров чаще захватывает слабые токены из хвоста распределения, что может ухудшать связность текста.[1]
При чистом сэмплировании следующий токен выбирается случайно в соответствии с полным вероятностным распределением модели. В отличие от жадного поиска или beam search, такой подход даёт модели больше свободы и помогает избегать слишком раннего «застревания» в одном и том же шаблоне.[1]
Однако у этой свободы есть обратная сторона. Даже если вероятность многих токенов очень мала, они обычно всё равно имеют ненулевой шанс быть выбранными. Из-за этого модель может захватывать продолжения из «хвоста» распределения, где чаще встречаются:
- случайные и контекстно слабые слова;
- плохо согласованные продолжения;
- токены, которые локально допустимы, но ухудшают общую связность текста.[1]
В результате чистое сэмплирование часто уменьшает шаблонность, но одновременно делает текст менее устойчивым: он может оставаться разнообразным, но становится более рыхлым, непоследовательным или семантически нестабильным.[1]
Методы усечения распределения
Методы усечения распределения — прежде всего Top-p и Top-k — были предложены как практический способ уменьшить вырождение. Они ограничивают множество допустимых токенов и тем самым снижают вероятность неудачных продолжений.[1][2]
Общая логика этих методов состоит в том, чтобы не позволять модели выбирать следующий токен из всего словаря. Вместо этого рассматривается только наиболее правдоподобная часть распределения:
- Top-k оставляет фиксированное число наиболее вероятных токенов;
- Top-p оставляет динамическое «ядро» токенов, суммарная вероятность которых достигает заданного порога.[1]
Такое ограничение уменьшает риск того, что модель выберет слишком слабое продолжение из ненадёжного хвоста, но при этом не заставляет её каждый раз брать только один-единственный «лучший» вариант. За счёт этого методы усечения часто оказываются промежуточным решением между двумя крайностями:
- слишком жёсткой максимизацией;
- слишком свободным и шумным сэмплированием.[1]
Позднее Finlayson и соавт. предложили более строгую теоретическую интерпретацию этой эффективности. Они показывают, что truncation-методы помогают отбрасывать токены, которые с большей вероятностью являются ненадёжными с точки зрения истинного распределения текста. Поэтому усечение можно рассматривать не только как инженерный эвристический приём, но и как способ уменьшить вероятность систематических ошибок при выборе следующего токена.[2]
Современные стратегии
Более поздние методы, такие как locally typical sampling, стремятся уменьшить дегенеративные повторы, сохраняя при этом качество генерации.[3] Аналогично, contrastive search был предложен как способ повысить разнообразие, не жертвуя связностью текста.[4]
Эти методы развивают идею, что проблема заключается не только в том, сколько токенов оставлять, но и в том, какие именно токены стоит считать хорошими кандидатами.
Locally typical sampling ориентируется не просто на высокую вероятность, а на близость информационного содержания токена к ожидаемой условной энтропии. Это позволяет уменьшать ситуации, когда модель:
- выбирает слишком банальные и «пустые» продолжения;
- застревает в дегенеративных повторах;
- становится слишком предсказуемой даже без явных циклов.[3]
Contrastive search использует иную логику: он стремится выбирать продолжения, которые одновременно остаются правдоподобными и не слишком похожими на уже сгенерированный контекст. За счёт этого уменьшается вероятность того, что модель будет усиливать одни и те же конструкции просто потому, что они локально очень вероятны.[4]
По сравнению с классическими decoding-стратегиями эти методы пытаются не просто ограничить выбор, а сделать сам критерий выбора более чувствительным к качеству длинной генерации — то есть к тому, будет ли текст оставаться содержательным, разнообразным и связным на протяжении нескольких предложений или абзацев.[3][4]
Зависимость от режима декодирования
Связь между нейронной дегенерацией и декодированием не сводится к противопоставлению «хороших» и «плохих» методов. Один и тот же алгоритм может вести себя по-разному в зависимости от того, насколько жёстко или свободно он ограничивает распределение на каждом шаге.[1]
В общем виде можно выделить три режима:
- слишком жёсткий выбор — модель почти всегда берёт самые вероятные токены, что усиливает шаблонность и повторы;
- слишком свободный выбор — модель получает слишком широкий доступ к слабым продолжениям, что повышает риск бессвязности;
- умеренно ограниченный выбор — модель сохраняет разнообразие, но остаётся в пределах достаточно надёжной части распределения.[1][2]
Именно поэтому нейронная дегенерация часто рассматривается как следствие не только качества самой модели, но и неудачного режима декодирования: слишком жёсткого, слишком мягкого или плохо согласованного с конкретной задачей генерации.[1][3]
Проще говоря, вырождение чаще возникает на двух крайностях: когда модель либо слишком жёстко выбирает только самые вероятные слова, либо, наоборот, получает слишком много свободы и начинает тянуть случайные слабые продолжения. Наиболее устойчивые стратегии обычно находятся между этими крайними режимами.[1][2]
Методы смягчения
Хотя универсального способа полностью устранить нейронную дегенерацию текста не существует, на практике разработан ряд методов, которые позволяют заметно снизить её наиболее типичные проявления — прежде всего повторы, шаблонность, потерю связности и захват «шумового» хвоста распределения. Эти методы различаются по тому, как именно они ограничивают выбор следующего токена: одни просто отсекают слабые варианты, другие учитывают форму распределения более тонко, третьи пытаются напрямую балансировать связность и разнообразие.[1][2][5]
Усечение распределения
Самый распространённый способ борьбы с нейронной дегенерацией — ограничивать выбор следующего токена не всем словарём, а только наиболее правдоподобной его частью. Именно на этом основаны Top-p и Top-k.[1][2]
Основная идея этих методов состоит в том, что модель не должна свободно выбирать среди всех возможных токенов, поскольку значительная часть распределения находится в «ненадёжном хвосте», где скапливаются слабые, шумовые или плохо согласованные варианты. Усечение позволяет искусственно сузить пространство выбора и тем самым уменьшить вероятность того, что генерация резко уйдёт в бессвязность или начнёт распадаться.[1][2]
На практике используются две наиболее известные схемы:
- Top-k — оставляет только фиксированное число наиболее вероятных токенов;
- Top-p (nucleus sampling) — оставляет динамическое «ядро» токенов, суммарная вероятность которых достигает заданного порога .[1]
Их общий смысл один: не давать модели выбирать из слишком большого количества слабых продолжений. При этом Top-p обычно считается более гибким, поскольку размер допустимого множества меняется от шага к шагу в зависимости от текущей формы распределения.[1]
Finlayson и соавт. предложили более строгую интерпретацию того, почему truncation-методы часто работают: усечение помогает отбрасывать токены, которые могут не принадлежать поддержке «истинного» распределения текста, то есть являются особенно ненадёжными с точки зрения модели. Поэтому такие методы не просто механически «режут хвост», а фактически снижают вероятность систематических ошибок на этапе выбора токена.[2]
Проще говоря, усечение распределения помогает модели не заходить слишком далеко в область слабых и случайных вариантов. За счёт этого текст чаще остаётся более связным, естественным и менее склонным к вырождению.
Более адаптивные методы сэмплирования
Locally typical sampling, η-сэмплирование и родственные подходы пытаются не просто «отрезать хвост», а учитывать форму распределения и информационную структуру текущего шага генерации.[3]
В отличие от простого усечения, такие методы стремятся учитывать не только то, насколько вероятен токен, но и то, насколько он типичен для данного контекста. Это важно, потому что дегенерация возникает не только из-за слишком слабых токенов, но и из-за чрезмерного предпочтения слишком «безопасных» и банальных продолжений.[3]
Например, locally typical sampling ориентируется на близость информационного содержания токена к ожидаемой условной энтропии. Иными словами, он старается выбирать не просто самые вероятные слова, а те, которые лучше соответствуют «нормальному» уровню информативности для данного контекста. Это позволяет уменьшать:
- дегенеративные повторы;
- чрезмерную шаблонность;
- смысловое обеднение текста при сохранении общей связности.[3]
Схожую логику используют и другие адаптивные методы: вместо простого фиксированного отсечения они стремятся подстраиваться под текущее состояние распределения. За счёт этого модель меньше склонна впадать в две крайности:
- либо становиться слишком предсказуемой и «плоской»;
- либо захватывать слишком слабые и шумовые продолжения.[3]
Такие методы обычно сложнее в интерпретации и настройке, чем Top-k или Top-p, однако они могут лучше справляться с тонкими формами дегенерации, где проблема состоит не в явной бессвязности, а в потере информативности и повторяемости речевых шаблонов.[3][5]
Проще говоря, более адаптивные методы пытаются не просто убрать слабые слова, а оставить те продолжения, которые лучше подходят текущему контексту по смыслу и «естественности».
Contrastive search
Contrastive search и близкие методы стремятся одновременно поддерживать связность и разнообразие, уменьшая повторы, которые часто возникают у strictly maximization-based decoding.[4]
Идея contrastive-подхода состоит в том, чтобы не полагаться только на вероятность следующего токена. Вместо этого выбор кандидата строится как компромисс между двумя требованиями:
- продолжение должно быть достаточно правдоподобным;
- продолжение не должно быть слишком похожим на уже сгенерированный контекст и тем самым усиливать повторение.[4]
За счёт этого contrastive search пытается подавлять именно те продолжения, которые формально выглядят очень вероятными, но практически ведут к зацикливанию, шаблонности или чрезмерно однотипной генерации. В отличие от чистого сэмплирования, этот подход не вводит случайность как основной механизм борьбы с вырождением, а старается целенаправленно выбирать достаточно вероятные, но менее дегенеративные продолжения.[4]
Такие методы особенно важны потому, что классические maximization-based стратегии часто дают высокую локальную уверенность, но платят за это естественностью текста. Contrastive search пытается сохранить сильные стороны детерминированного выбора — связность и устойчивость — при одновременном снижении повторов и однообразия.[4]
Проще говоря, contrastive search старается не брать продолжение только потому, что оно самое вероятное. Он дополнительно «штрафует» слишком однообразные варианты, чтобы текст не зацикливался и не становился слишком шаблонным.
Подбор стратегии под задачу
Более поздние исследования подчёркивают, что универсального метода нет: эффективность конкретной decoding-стратегии зависит от типа задачи, размера модели, выравнивания и других факторов. То, что хорошо работает для диалоговой генерации или эссе, может работать хуже в коде, математике или иных детерминированных доменах.[5]
Это означает, что борьба с нейронной дегенерацией — не только выбор «лучшего» алгоритма, но и сопоставление метода с типом задачи. В открытой генерации (истории, диалоги, длинные ответы) методы сэмплирования и более гибкие схемы отбора часто помогают сохранить разнообразие и естественность. В более жёстких и детерминированных задачах — например, в программировании, математике или задачах с однозначным правильным ответом — слишком агрессивная стохастика, наоборот, может снижать качество результата.[5]
Shi и соавт. также показывают, что на итоговый результат влияют не только сама стратегия декодирования, но и:
- размер модели;
- степень её выравнивания;
- чувствительность к гиперпараметрам;
- среда развёртывания и ограничения инференса.[5]
Отсюда следует важный практический вывод: один и тот же метод может выглядеть сильным в одной конфигурации и заметно слабее — в другой. Поэтому смягчение нейронной дегенерации на практике почти всегда требует подбора параметров и проверки на конкретном классе задач, а не опоры на один «универсальный» рецепт.[5]
Проще говоря, хороший способ декодирования зависит от того, что именно делает модель. Для свободного текста лучше работают одни методы, для кода, математики и других точных задач — другие.
Комбинирование методов
На практике методы смягчения нередко применяются не изолированно, а в сочетании друг с другом. Например, усечение распределения может использоваться вместе с температурой, а более сложные стратегии — сочетаться с дополнительными ограничениями на выбор токенов.[1][5]
Смысл таких комбинаций состоит в том, чтобы разделить функции:
- один механизм задаёт общий уровень разнообразия;
- другой ограничивает «шумовой» хвост;
- третий снижает риск повторов или шаблонности.[1][4]
Однако увеличение числа одновременно настраиваемых механизмов усложняет контроль над поведением модели. Поэтому более сложная схема не всегда означает более качественный результат: выигрыш часто зависит от того, насколько хорошо подобраны гиперпараметры и насколько конкретная комбинация соответствует задаче.[5]
Иными словами, смягчение нейронной дегенерации чаще всего строится не на одном «магическом» методе, а на аккуратном сочетании нескольких ограничений, каждое из которых устраняет свою часть проблемы.
Не следует путать с model collapse
Нейронную дегенерацию текста в смысле Holtzman и соавт. не следует смешивать с model collapse — отдельным явлением, изучаемым в работах о рекурсивном обучении моделей на синтетических данных.
В первом случае речь идёт прежде всего о вырождении текста на этапе генерации (inference), когда неудачная стратегия декодирования приводит к повторам, шаблонности или потере связности.[1] Во втором — о деградации модели на этапе обучения, когда сгенерированные моделью данные начинают «загрязнять» обучающий набор следующего поколения моделей, что может приводить к исчезновению редких событий и сужению распределения.[6]
Эти явления тематически связаны, поскольку оба касаются ухудшения качества нейросетевого текста, однако в литературе обычно рассматриваются как разные проблемы: одна относится к декодированию, другая — к данным и обучению.[1][6]
Значение для больших языковых моделей
В эпоху больших языковых моделей проблема нейронной дегенерации не исчезла, а сместилась из области небольших генераторов текста в область управления поведением более мощных систем. Хотя современные LLM обычно лучше выровнены и реже впадают в грубые циклы повторов, выбор decoding-стратегии по-прежнему заметно влияет на естественность, разнообразие и устойчивость вывода.[5]
Из-за этого нейронная дегенерация текста рассматривается не как узкий дефект ранних языковых моделей, а как фундаментальная проблема практической генерации: хорошее вероятностное моделирование само по себе не гарантирует хорошего текста на этапе инференса.[1][2]
См. также
Литература
- Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2019; опубликовано на ICLR 2020). The Curious Case of Neural Text Degeneration. arXiv:1904.09751.
- Finlayson, M., Hewitt, J., Koller, A., Swayamdipta, S., & Sabharwal, A. (2024). Closing the Curious Case of Neural Text Degeneration. arXiv:2310.01693.
- Meister, C., Pimentel, T., Wiher, G., & Cotterell, R. (2023). Locally Typical Sampling. TACL 2023.
- Shi, C., Yang, H., Cai, D., Zhang, Z., Wang, Y., Yang, Y., & Lam, W. (2024). A Thorough Examination of Decoding Methods in the Era of LLMs. EMNLP 2024.
- Su, Y., Lan, T., Wang, Y., Yogatama, D., Kong, L., & Collier, N. (2022). A Contrastive Framework for Neural Text Generation. arXiv:2202.06417.
- Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature 2024.
Примечания
- ↑ 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2019). The Curious Case of Neural Text Degeneration. arXiv:1904.09751. [1]
- ↑ 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 Finlayson, M., Hewitt, J., Koller, A., Swayamdipta, S., & Sabharwal, A. (2024). Closing the Curious Case of Neural Text Degeneration. arXiv:2310.01693. [2]
- ↑ 3,00 3,01 3,02 3,03 3,04 3,05 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 Meister, C., Pimentel, T., Wiher, G., & Cotterell, R. (2023). Locally Typical Sampling. Transactions of the Association for Computational Linguistics, 11. [3]
- ↑ 4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 Su, Y., Lan, T., Wang, Y., Yogatama, D., Kong, L., & Collier, N. (2022). A Contrastive Framework for Neural Text Generation. arXiv:2202.06417. [4]
- ↑ 5,0 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 Shi, C., Yang, H., Cai, D., Zhang, Z., Wang, Y., Yang, Y., & Lam, W. (2024). A Thorough Examination of Decoding Methods in the Era of LLMs. EMNLP 2024. [5]
- ↑ 6,0 6,1 Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature. [6]