Perplexität

Perplexität (englisch Perplexity, PPL) ist in der Informationstheorie und im maschinellen Lernen ein Maß für die Unsicherheit oder die „Überraschung“ eines Sprachmodells bei der Vorhersage einer Textprobe. Eine niedrige Perplexität deutet darauf hin, dass die Wahrscheinlichkeitsverteilung des Modells gut zu den Testdaten passt, während eine hohe Perplexität bedeutet, dass das Modell die Sequenz schlecht vorhersagt^[1].

Formal ist die Perplexität einer Wahrscheinlichkeitsverteilung als der Exponent ihrer Entropie definiert. Für eine diskrete Verteilung $p (x)$ ist sie gleich $2^{H (p)}$ , wobei $H (p)$ die Entropie ist^[2]. Intuitiv lässt sich die Perplexität als die „effektive“ Anzahl der Optionen verstehen, aus denen das Modell bei jedem Schritt wählt. Wenn die Perplexität 100 beträgt, bedeutet dies, dass die Unsicherheit des Modells der Auswahl aus 100 gleich wahrscheinlichen Ergebnissen entspricht^[3].

Der Begriff wurde erstmals 1977 von einer Gruppe von IBM-Forschern unter der Leitung von Frederick Jelinek im Kontext der statistischen Spracherkennung eingeführt, um den „Schwierigkeitsgrad“ einer Aufgabe quantitativ zu bewerten^[4].

Perplexität bei Sprachmodellen

Im Bereich der Verarbeitung natürlicher Sprache (NLP) hat sich die Perplexität als standardmäßige intrinsische (intrinsic) Metrik zur Bewertung der Qualität von Sprachmodellen etabliert. Sie misst, wie gut ein Modell eine Sequenz von Wörtern oder Tokenn in einem Testdatensatz vorhersagt.

Formale Definition

Für einen Testkorpus $W = w_{1} w_{2} \dots w_{N}$ und ein Sprachmodell $q$ wird die Perplexität als die inverse geometrische mittlere Wahrscheinlichkeit des Testkorpus berechnet, normalisiert durch die Anzahl der Wörter: $PP (W, q) = {(\prod_{i = 1}^{N} \frac{1}{q (w_{i} ∣ w_{1}, \dots, w_{i - 1})})}^{1 / N}$

Diese Formel ist äquivalent zum Exponenten der Kreuzentropie oder des mittleren negativen Log-Likelihood-Verlusts (negative log-likelihood): $PP (W, q) = \exp (- \frac{1}{N} \sum_{i = 1}^{N} \log q (w_{i} ∣ Kontext))$

Die Minimierung der Perplexität ist äquivalent zur Maximierung der Likelihood (Plausibilität) des Modells auf den Testdaten. Ein Modell mit geringerer Perplexität wird daher als statistisch genauer angesehen^[5].

Historische Anwendung und moderne LLMs

Historisch wurde die Perplexität weithin zur Bewertung statistischer n-Gramm-Modelle verwendet. Beispielsweise hat für den Wall Street Journal-Korpus ein Unigramm-Modell (das nur die Worthäufigkeiten berücksichtigt) eine Perplexität von ~962, während ein Trigramm-Modell (das den Kontext der beiden vorhergehenden Wörter berücksichtigt) einen Wert von etwa 109 aufweist^[6]. Dieser drastische Rückgang zeigt, wie viel besser das Modell sprachliche Muster erfasst.

Mit der Entwicklung großer Sprachmodelle (LLMs) hat die Perplexität ihre Rolle als grundlegende Benchmark-Metrik beibehalten. Forscher geben die Perplexität auf Standard-Testdatensätzen (z. B. WikiText) als Indikator für die „Flüssigkeit“ (fluency) eines Modells an. So wird im OpenAI-Paper zu GPT-2 berichtet, dass das Modell mit ~117 Millionen Parametern eine Perplexität von etwa 37 auf dem WikiText-103-Korpus erreicht^[7]. Eine Verringerung der Perplexität korreliert in der Regel mit einer Verbesserung der Modellqualität, weshalb die Metrik als nützlicher Indikator für den Fortschritt während des Trainings und der Optimierung dient.

Grenzen und Interpretation der Metrik

Obwohl eine niedrige Perplexität auf eine hohe Wahrscheinlichkeit der Daten gemäß dem Modell hindeutet, hat dieser Indikator eine Reihe wesentlicher Einschränkungen und korreliert nicht immer mit der tatsächlichen Qualität des generierten Textes.

Niedrige Perplexität ≠ hohe Qualität. Die Perplexität misst die Sicherheit (confidence) des Modells in seinen Vorhersagen, nicht aber deren Korrektheit. Ein Modell kann selbstbewusst falsch liegen und unsinnigen, aber statistisch wahrscheinlichen Text generieren (z. B. durch Wiederholung sehr häufiger Wörter und Phrasen)^[3].
Sensitivität gegenüber Daten und Tokenisierung. Die Perplexität ist für den direkten Vergleich von Modellen mit unterschiedlichen Architekturen, Vokabularen oder Tokenisierungsmethoden schlecht geeignet. Beispielsweise kann ein zeichenbasiertes Modell numerisch eine niedrigere Perplexität aufweisen als ein wortbasiertes Modell, was jedoch nicht bedeutet, dass es sprachliche Aufgaben besser löst^[3].
Unfähigkeit zur Bewertung von Semantik und langem Kontext. Die Perplexität ist eine lokale Metrik, die die Vorhersage des nächsten Tokens bewertet. Sie korreliert nur schwach mit der Fähigkeit des Modells, langfristige Abhängigkeiten und semantischen Kontext über große Distanzen zu erfassen. Eine Studie aus dem Jahr 2024 (Hu et al.) zeigte, dass die Fähigkeit von LLMs, lange Texte (bis zu 100.000 Token) zu verstehen, sich kaum in der Perplexitätsmetrik widerspiegelt^[8].
Manipulationsanfälligkeit. Die Metrik kann „ausgetrickst“ werden. Ein überangepasstes (overfitted) Modell zeigt eine künstlich niedrige Perplexität auf Daten, die es „auswendig gelernt“ hat. Studien (Wang et al., 2022) haben zudem gezeigt, dass die Duplizierung von Textfragmenten oder sogar das Fehlen eines Punktes am Satzende die Perplexität ungerechtfertigt senken oder erhöhen kann, ohne die tatsächliche Textqualität zu beeinflussen^[9].

Fazit: Die Rolle der Perplexität heute

Unter Berücksichtigung der genannten Einschränkungen wird die Perplexität in der modernen Praxis als unterstützender, vorläufiger Indikator für die Qualität eines Sprachmodells betrachtet. Sie bleibt ein wertvolles Werkzeug für die schnelle Bewertung und das Debugging von Modellen, da sie nicht von einer bestimmten Anwendungsaufgabe abhängt und einfach zu berechnen ist^[3].

Für eine umfassende Bewertung von LLMs reicht die Perplexität allein jedoch nicht aus. Heutzutage wird sie zwingend durch externe (extrinsic) Metriken ergänzt, die an spezifische Aufgaben gebunden sind, wie zum Beispiel:

Genauigkeit bei der Beantwortung von Fragen;
Menschliche Bewertungen (human evaluation);
BLEU/ROUGE für maschinelle Übersetzung und Textzusammenfassung.

In Kombination mit diesen Methoden spielt die Perplexität weiterhin eine wichtige Rolle als objektives Maß für die „Überraschung“ des Modells, ihre Ergebnisse müssen jedoch stets unter Berücksichtigung der genannten Einschränkungen interpretiert werden^[3].

Weblinks

Artikel „Perplexität in Sprachmodellen“ auf Habr (Russisch)
Hugging Face-Dokumentation zur Berechnung der Perplexität (Englisch)

Literatur

Jelinek, F., Bahl, L. R., & Mercer, R. L. (1977). Perplexity — a Measure of the Difficulty of Speech Recognition Tasks. JASA:62(S1):S63.
Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing (3. Aufl., Kap. 3: N-gram Language Models). PDF.
Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI white paper.
Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Wang, C. et al. (2022). Perplexity by PLM Is Unreliable for Evaluating Text Quality. arXiv:2210.05892.
Meister, C., & Cotterell, R. (2021). Language Model Evaluation Beyond Perplexity. arXiv:2106.00085.
Hu, Y. et al. (2024). Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding?. arXiv:2405.06105.
Lazaridou, A. et al. (2021). Mind the Gap: Assessing Temporal Generalization in Neural Language Models. NeurIPS 2021.

Einzelnachweise

↑ „Perplexität“. Wikipedia. [1]
↑ „Perplexity“. Wikipedia. [2]
↑ ^3.0 ^3.1 ^3.2 ^3.3 ^3.4 Morgan, Abby. „Perplexity for LLM Evaluation“. Comet AI Blog, 21. Nov. 2024. [3]
↑ „README.md · evaluate-measurement/perplexity“. Hugging Face. [4]
↑ Jurafsky, Dan, and James H. Martin. Speech and Language Processing, 3rd ed., Chapter 3: N-gram Language Models, draft (2021). [5]
↑ Jurafsky, Dan, and James H. Martin. Speech and Language Processing, 3rd ed., Chapter 3: N-gram Language Models, draft (2021). [6]
↑ „Perplexity number of wikitext-103 on gpt-2 don't match the paper“. GitHub, huggingface/transformers, Issue #483. [7]
↑ Hu, H., et al. „Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding?“. arXiv:2405.06105 [cs.CL], 10. Mai 2024. [8]
↑ Wang, C., et al. „Perplexity by PLM Is Unreliable for Evaluating Text Quality“. arXiv:2210.05892 [cs.CL], 12. Okt. 2022. [9]

Category:Information theory

[ru_wiki-1] „Perplexität“. Wikipedia. [1]

[en_wiki-2] „Perplexity“. Wikipedia. [2]

[comet_eval-3] 3.0 ^3.1 ^3.2 ^3.3 ^3.4 Morgan, Abby. „Perplexity for LLM Evaluation“. Comet AI Blog, 21. Nov. 2024. [3]

[readme_jelinek-4] „README.md · evaluate-measurement/perplexity“. Hugging Face. [4]

[stanford_slp-5] Jurafsky, Dan, and James H. Martin. Speech and Language Processing, 3rd ed., Chapter 3: N-gram Language Models, draft (2021). [5]

[jurafsky_slp3-6] Jurafsky, Dan, and James H. Martin. Speech and Language Processing, 3rd ed., Chapter 3: N-gram Language Models, draft (2021). [6]

[gpt2_issue-7] „Perplexity number of wikitext-103 on gpt-2 don't match the paper“. GitHub, huggingface/transformers, Issue #483. [7]

[hu_long_context-8] Hu, H., et al. „Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding?“. arXiv:2405.06105 [cs.CL], 10. Mai 2024. [8]

[wang_unreliable-9] Wang, C., et al. „Perplexity by PLM Is Unreliable for Evaluating Text Quality“. arXiv:2210.05892 [cs.CL], 12. Okt. 2022. [9]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Perplexität

Contents

Perplexität bei Sprachmodellen

Formale Definition

Historische Anwendung und moderne LLMs

Grenzen und Interpretation der Metrik

Fazit: Die Rolle der Perplexität heute

Weblinks

Literatur

Einzelnachweise

Navigation menu

Perplexität

Perplexität bei Sprachmodellen

Formale Definition

Historische Anwendung und moderne LLMs

Grenzen und Interpretation der Metrik

Fazit: Die Rolle der Perplexität heute

Weblinks

Literatur

Einzelnachweise

Navigation menu

Search