BBQ (Bias Benchmark for Question Answering) (DE)

From Systems analysis wiki
Jump to navigation Jump to search

BBQ (Bias Benchmark for Question Answering) ist ein Datensatz zur Bewertung von sozialen Vorurteilen (Bias) in Frage-Antwort-Systemen (QA)[1]. Er wurde von einer Forschungsgruppe der New York University unter der Leitung von Alicia Parrish entwickelt und 2022 auf der Konferenz ACL Findings veröffentlicht[1][2]. Das Ziel von BBQ ist es, aufzuzeigen, wie große Sprachmodelle (LLMs) und andere QA-Modelle Stereotype und Voreingenommenheit in ihren Antworten auf Fragen zeigen, insbesondere bei angewandten Aufgaben des Beantwortens von Fragen in natürlicher Sprache[1]. BBQ hat sich zu einem der umfassendsten Benchmarks für die Bewertung von sozialem Bias im NLP entwickelt und deckt ein breites Spektrum an Stereotypen in neun sozialen Kategorien ab[3].

Dieser Datensatz ergänzt frühere Arbeiten wie den UnQover-Datensatz (2020), der Bias anhand einer begrenzten Anzahl von Merkmalen (Geschlecht-Beruf, Nationalität, Ethnizität, Religion) maß und sich auf die Wahrscheinlichkeiten der Modelle stützte, anstatt auf die Antworten selbst[3]. Im Gegensatz zu UnQover analysiert BBQ direkt den Inhalt der Modellantworten und deren Auswahl aus den vorgeschlagenen Optionen, was eine Bewertung des Bias direkt auf der Ebene der generierten Ergebnisse ermöglicht[1].

Die Autoren von BBQ positionieren den Datensatz als ein Werkzeug zur Diagnose von schädlichen sozialen Stereotypen in Modellen und zur Verringerung des Risikos negativer Auswirkungen solcher Stereotype auf vulnerable Bevölkerungsgruppen[1]. Der Datensatz konzentriert sich auf Stereotype, die für die englischsprachige Kultur der USA relevant sind, und deckt nicht alle möglichen kulturellen Kontexte ab[1]. Dennoch legte BBQ den Grundstein für nachfolgende Arbeiten zur Messung und Minderung von sozialem Bias im NLP und wurde zu einem Maßstab für den Vergleich von Modellen hinsichtlich ihrer ethischen Korrektheit.

Zusammensetzung und Struktur des Datensatzes

BBQ enthält rund 58.500 Fragen und Antworten, die in speziellen Sätzen gruppiert sind, um spezifische Stereotype aufzudecken[4]. Alle Beispiele wurden von den Autoren manuell auf der Grundlage dokumentierter Fälle von Vorurteilen und Stereotypen erstellt, die Mitgliedern verschiedener sozialer Gruppen schaden[4]. Bei der Erstellung der Szenarien wurden Daten aus wissenschaftlichen Studien, Medienartikeln, Berichten und anderen verlässlichen Quellen verwendet, die die Existenz eines bestimmten Stereotyps und seine schädlichen Folgen belegen[1]. Für jede Situation geben die Autoren einen Link zu einer Quelle an, in der das Stereotyp als negativ oder schädlich beschrieben wird (z. B. ein wissenschaftlicher Artikel oder eine Pressemitteilung)[1].

Soziale Kategorien

BBQ deckt neun wesentliche sozial relevante Kategorien ab (die meisten entsprechen den geschützten Gruppen gemäß der Definition der U.S. Equal Employment Opportunity Commission)[1]:

  • Alter – Vorurteile gegenüber Altersgruppen (z. B. das Stereotyp, dass ältere Menschen geringere kognitive Fähigkeiten haben)[1].
  • Behinderung – Stereotype über die geistigen Fähigkeiten oder andere Eigenschaften von Menschen mit Behinderungen (z. B. die Vorstellung, dass körperlich eingeschränkte Personen intellektuell weniger kompetent sind)[1].
  • Geschlechtsidentität – Geschlechterstereotype (z. B. die Vorstellung, dass „Mädchen schlecht in Mathe sind“)[1].
  • Nationalität – National-ethnische Vorurteile (z. B. das Stereotyp der technischen Unwissenheit von Menschen afrikanischer Herkunft)[1].
  • Äußeres Erscheinungsbild – Diskriminierung aufgrund des Aussehens oder der Körperform (z. B. die Meinung, dass übergewichtige Menschen weniger intelligent oder fleißig sind)[1].
  • Rasse/Ethnizität – Rassistische Stereotype (z. B. die voreingenommene Verbindung einer bestimmten Rasse mit Kriminalität oder Drogenabhängigkeit)[1].
  • Religion – Religiöse Stereotype (z. B. die Vorstellung, Juden seien gierig oder Muslime gewaltbereit)[1].
  • Sozioökonomischer Status – Vorurteile gegenüber armen oder reichen Gesellschaftsschichten (z. B. die Überzeugung, dass Menschen aus armen Familien schlechte Eltern sein werden)[1].
  • Sexuelle Orientierung – Homophobe Stereotype (z. B. die fälschliche Assoziation von Homosexualität mit einer HIV-Infektion)[1].

Zusätzlich zu diesen neun Kategorien enthält BBQ zwei intersektionale Kategorien (intersectional biases), die zwei Merkmale kombinieren: (1) Geschlecht in Verbindung mit Rasse/Ethnizität und (2) sozioökonomischer Status in Verbindung mit Rasse[1]. Solche Fälle berücksichtigen Stereotype an der Schnittstelle verschiedener Gruppen (z. B. Vorurteile speziell gegen schwarze Frauen oder gegen bestimmte ethnische Gruppen aus der Unterschicht).

Vorlagen und Generierung von Beispielen

Für jede Kategorie erstellte das Team Szenariovorlagen – kurze Skizzen mit zwei Charakteren, die sich in dem relevanten Merkmal unterscheiden (z. B. jung und alt, Mann und Frau, reich und arm usw.)[4]. In der Vorlage ist eine Situation angelegt, die ein bekanntes Stereotyp bestätigen oder widerlegen könnte. Zu jedem Szenario gehören Fragen und Antwortmöglichkeiten.

Insgesamt wurden 25 einzigartige Vorlagen für jede der neun Hauptkategorien entwickelt, plus jeweils 25 zusätzliche Vorlagen für die Kategorien Rasse und Geschlecht unter Verwendung echter Namen (um Bias auf der Ebene von Eigennamen zu testen)[1]. Außerdem wurden für die beiden intersektionalen Bereiche jeweils 25 Vorlagen erstellt[1]. Somit übersteigt die Gesamtzahl der Basisszenarien 300.

Jede Vorlage enthält spezielle Variablen-Slots – für Gruppennamen oder Beschreibungen –, die in den Text eingesetzt werden (z. B. werden in einer Vorlage zum Alter anstelle von „_jährige Person“ verschiedene Zahlen eingesetzt, oder beim Aussehen Adjektive wie „übergewichtig“/„schlank“ usw.)[1]. Durch das Einsetzen verschiedener Werte und das Vertauschen der Reihenfolge der beiden Figuren wird jede Vorlage zu einer Vielzahl konkreter Beispiele erweitert (mindestens 8 und bis zu ~200 Variationen)[1]. In der Regel werden aus einer Vorlage mindestens 100 endgültige Fragen generiert, in einigen Fällen sogar bis zu zweihundert[1]. Insgesamt entstand ein Korpus von 58.492 Beispielen (einzigartige Kombinationen aus Szenario, Frage und Antwort)[4].

Kontexte und Fragetypen

Ein wesentliches Merkmal von BBQ ist, dass jede Situation mit zwei Kontextvarianten und zwei Frageformulierungen dargestellt wird, was einen Satz von vier Fragen (ein sogenanntes 4er-Cluster) ergibt[1]. Dies dient dazu, den Einfluss fehlender Informationen von den eigentlichen Stereotypen des Modells zu trennen. In jedem Quartett[1]:

  • Uneindeutiger Kontext (under-informative or ambiguous context): Ein Text, der eine Situation mit zwei Personen aus verschiedenen Gruppen beschreibt, aber nicht genügend Informationen enthält, um die gestellte Frage eindeutig zu beantworten[1]. Die richtige Antwort in solchen Fällen ist immer die Option „unbekannt“ (d. h. es fehlen ausreichende Daten)[1]. Diese Beispiele sollen prüfen, ob das Modell eine Schlussfolgerung auf der Grundlage eines Stereotyps zieht.
  • Eindeutiger Kontext (disambiguated context): Ein erweitertes Szenario, in dem ein klärendes Detail hinzugefügt wird, das es ermöglicht, zu bestimmen, welche der beiden genannten Personen der Frage entspricht[1]. In diesem Fall ist einer der beiden Charaktere eindeutig die richtige Antwort (und die Option „unbekannt“ ist falsch). Der eindeutige Kontext dient dazu zu überprüfen, ob das Modell seinen möglichen Bias überwinden und die korrekte Antwort wählen kann, auch wenn das Stereotyp das Gegenteil nahelegt[1].
  • Negative Frage (z. B. „Wer von ihnen kennt das Thema schlecht?“, „Wer hat das Verbrechen begangen?“)[1]. Eine solche Frage in Kombination mit einem uneindeutigen Kontext prüft, ob das Modell dazu neigt, eine negative Handlung ohne Faktenlage mit einer bestimmten Gruppe in Verbindung zu bringen[1].
  • Nicht-negative (kontrastierende) Frage (z. B. „Wer von ihnen kennt das Thema gut?“ oder „Wer unterlässt eine schlechte Handlung?“)[1]. Die nicht-negative Frage ist so formuliert, dass sie nicht wie eine direkte Bestätigung eines Stereotyps klingt, aber dennoch die Ausgewogenheit der Modellantworten überprüft[1]. Der Vergleich der Antworten auf negative und neutrale Versionen deckt systematische Verzerrungen auf.

Jedes dieser vier Beispiele im Cluster hat drei Antwortmöglichkeiten: zwei konkrete (die jeweils eine der beiden beteiligten Gruppen benennen) und eine Option, die auf das Fehlen ausreichender Informationen hinweist (gekennzeichnet als „Unknown“ und äquivalente Formulierungen)[1]. Beispielsweise lauten die Antwortmöglichkeiten in einer Szene mit einem fiktiven Christen und einem Muslim: „der Christ“, „der Muslim“ oder „unbekannt“[1]. Dabei wird das Wort „unbekannt“ nicht immer gleich formuliert – es werden 10 synonyme Ausdrücke verwendet[1].

Zudem wird in jeder Vorlage automatisch die Reihenfolge der Nennung der beiden Gruppen geändert[1]. Dies geschieht, um den Positionseffekt zu neutralisieren – ein bekannter Faktor, bei dem Modelle dazu neigen, unabhängig vom Inhalt die erstgenannte Entität zu wählen[1].

Annotation und Qualitätsprüfung

Jedes BBQ-Beispiel wurde von Crowdsourcing-Annotatoren bewertet: Mindestens 5 unabhängige Personen beantworteten die Fragen, und nur diejenigen Beispiele wurden in den endgültigen Datensatz aufgenommen, bei denen mindestens 4 von 5 Annotatoren der richtigen Antwort zustimmten (per Mehrheitsentscheid)[1]. Wenn eine Frage diese Schwelle nicht erreichte, wurde die gesamte Vorlage überarbeitet und bearbeitet[1]. Dank dieses Prozesses ist die menschliche Genauigkeit bei BBQ sehr hoch: Einzelne Annotatoren beantworteten ca. 95,7 % der Fragen korrekt, und unter Berücksichtigung der Mehrheitsentscheidung erreicht die Genauigkeit des Goldstandards 99,7 %[1]. Krippendorffs Alpha für die Inter-Rater-Reliabilität betrug 0,883, was auf eine hohe Übereinstimmung zwischen den Menschen hinsichtlich der richtigen Antworten hinweist[1]. Diese Maßnahmen bestätigen, dass die BBQ-Aufgaben für Menschen verständlich sind und objektiv richtige Antworten haben; daher können Fehler von Modellen bei diesen Beispielen begründet als Ausdruck von Bias und nicht als Mehrdeutigkeit der Fragen selbst interpretiert werden.

Bewertung des Bias von Modellen

BBQ wurde für eine vielschichtige Bewertung des Modellverhaltens in Situationen entwickelt, die sozialen Bias provozieren. Beim Testen erhält ein QA-Modell einen Kontext und eine Frage und muss dann eine von drei Antwortmöglichkeiten auswählen. Die Analyse der Ergebnisse erfolgt auf zwei Ebenen[1]:

Fall des uneindeutigen Kontexts

Es wird gemessen, wie oft das Modell bei fehlenden Informationen falsche Antworten gibt, d. h. sich auf ein Stereotyp stützt[1]. Idealerweise sollte das Modell auf jede Frage mit unzureichendem Kontext mit „unbekannt“ antworten. Wenn es jedoch eine der Gruppen wählt, wird dies als Projektion eines inhärenten Stereotyps gewertet[1]. Die Häufigkeit solcher Fehler und ihre Verteilung über die Kategorien geben Aufschluss über die Neigung des Modells, schädliche Stereotype zu reproduzieren.

Fall des informativen Kontexts

Es wird bewertet, wie genau das Modell antwortet, wenn der Kontext eine explizite richtige Antwort enthält[1]. Hier wird normalerweise die Standardmetrik Accuracy (Prozentsatz der richtigen Antworten) berechnet, die zeigt, ob das Modell die Frage-Antwort-Aufgabe grundsätzlich bewältigt. Besondere Aufmerksamkeit gilt jedoch den Fällen, in denen die richtige Antwort einem Stereotyp widerspricht[1]. Die Entwickler von BBQ analysieren, ob die Genauigkeit des Modells abnimmt, wenn die richtige Antwort einem etablierten Stereotyp widerspricht (und umgekehrt, ob die Genauigkeit höher ist, wenn die Wahrheit mit der stereotypen Erwartung übereinstimmt)[1]. Ein solcher Effekt würde darauf hindeuten, dass das Modell selbst bei Vorhandensein von Fakten aufgrund von Bias Fehler machen kann.

Bias Score

Zur quantitativen Bewertung des Bias-Grades wird eine spezielle Metrik eingeführt – der Bias Score[1]. Im Allgemeinen spiegelt der Bias Score den Prozentsatz der Modellantworten (unter den falschen oder allen, je nach Bedingung) wider, die mit dem Stereotyp übereinstimmen[1].

  • Ein Wert von +100 % würde bedeuten, dass das Modell in allen Fällen die Antwortoption gewählt hat, die der Zielgruppe stereotyp eine negative Eigenschaft zuschreibt.
  • 0 % – keine Anzeichen von Bias (das Modell antwortet entweder immer richtig/„unbekannt“ oder macht in beide Richtungen gleich viele Fehler).
  • Ein negativer Score (bis zu -100 %) – eine gegenteilige Tendenz, bei der das Modell immer entgegen der stereotypen Erwartung antwortet[1].

Die Scores werden getrennt für uneindeutige und eindeutige Kontexte berechnet, da die Art der Fehler in ihnen unterschiedlich ist[1].

  • Bei uneindeutigen Fragen wird der Bias Score durch den Anteil der Fälle bestimmt, in denen das Modell anstelle von „unbekannt“ eine konkrete Antwort wählte, die mit einem negativen Stereotyp übereinstimmt[1]. Je häufiger solche Antworten auftreten, desto höher ist der positive Score. Dabei wird die Genauigkeit berücksichtigt: Wenn ein Modell gleichermaßen falsch und richtig („unbekannt“) antwortet, ist der Score selbst bei einigen stereotypen Fehlern niedriger als bei einem Modell, das immer die stereotype Antwort wählt[1]. Somit werden sowohl die Häufigkeit als auch die Sicherheit der voreingenommenen Antworten bestraft (für uneindeutige Kontexte wird die Metrik unter Berücksichtigung des Prozentsatzes der korrekten „unbekannt“-Antworten skaliert)[1].
  • Bei eindeutigen Fragen wird der Bias Score etwas anders berechnet, da hier die richtige Antwort eine der Gruppen ist[1]. In diesen Fällen werden die falschen Antworten des Modells betrachtet: der Anteil der Fehler, bei denen das Modell nicht die richtige, sondern eine alternative, mit dem Stereotyp übereinstimmende Option gewählt hat[1]. Mit anderen Worten, wenn das Modell einen Fehler machte, indem es einem Vorurteil den Vorzug gab (z. B. den Fakten nicht glaubte und stereotyp antwortete), erhöht dies den Score[1].

Die Analyse des Bias Scores zusammen mit der allgemeinen Genauigkeit ermöglicht eine detaillierte Charakterisierung des Modellverhaltens auf BBQ. Die Autoren weisen darauf hin, dass dieselben Accuracy-Werte unterschiedliche Fehlermuster verbergen können[1]. Somit zeigt dieser Indikator die Richtung der Fehler auf und deckt subtile Fälle auf, die allein durch die Genauigkeit nicht sichtbar sind.

Ergebnisse und festgestellte Muster

Die erste Testreihe mehrerer populärer QA-Modelle auf dem BBQ-Datensatz zeigte eine Reihe deutlicher Bias-Manifestationen[1]. In der Studie von Parrish et al. (2022) wurden sowohl große universelle Modelle (z. B. UnifiedQA – ein verallgemeinertes Modell für QA auf Basis von T5) als auch standardisierte Multiple-Choice-Modelle (z. B. ROBERTA mit Feinabstimmung auf QA) getestet[1].

Die wichtigsten Ergebnisse der Experimente sind:

  • Starke stereotype Fehler bei unzureichenden Informationen. Bei allen getesteten Systemen wurde eine Tendenz beobachtet, stereotyp zu antworten, wenn der Kontext keine notwendigen Hinweise lieferte[1]. Mit anderen Worten, die Modelle wählten oft nicht die Option „unbekannt“, sondern bevorzugten eine konkrete Antwort, die mit einer stereotypen Erwartung übereinstimmte[1]. Beispielsweise wiesen die Modelle in uneindeutigen Fragen zu einem Verbrechen ohne klaren Täter häufig auf Personen aus einer bestimmten Gruppe (entsprechend dem Vorurteil) hin[1]. Der berechnete Bias Score für uneindeutige Kontexte lag deutlich über null und näherte sich bei einigen Modellen in bestimmten Kategorien manchmal +100 %[1]. Eine besonders hohe Neigung zu stereotypen Antworten zeigten die Modelle in Szenen, die mit dem äußeren Erscheinungsbild (Übergewicht etc.) zusammenhingen – diese Kategorie wies einen deutlich höheren Bias auf als beispielsweise Rasse oder sexuelle Orientierung[1]. Dies deutet auf eine ungleichmäßige Verteilung des Bias innerhalb eines Modells hin – einige Arten von Stereotypen hat es stärker „gelernt“ als andere.
  • Verbesserung bei Vorhandensein von Fakten, aber Beibehaltung eines verborgenen Bias. Wenn die Modelle einen eindeutigen Kontext mit einer klaren Angabe der richtigen Antwort erhielten, stieg ihre Genauigkeit erheblich an (im Vergleich zur Situation der Ungewissheit)[1]. Eine detaillierte Analyse deckte jedoch einen subtilen Effekt auf: Die Genauigkeit war ungleichmäßig, abhängig vom Verhältnis der richtigen Antwort zum Stereotyp[1]. Im Durchschnitt erreichten die Modelle eine um 3 bis 3,5 Prozentpunkte höhere Genauigkeit bei den Beispielen, bei denen die richtige Antwort mit einem verbreiteten Stereotyp übereinstimmte, im Vergleich zu Beispielen, bei denen die richtige Antwort diesem Stereotyp widersprach[1]. Anders ausgedrückt: Wenn die Fakten das Vorurteil bestätigten, gaben die Modelle fast fehlerfreie Antworten; wenn jedoch die „untypische“ Option für das Stereotyp genannt werden musste, stieg die Fehlerwahrscheinlichkeit. Obwohl dieser Leistungsunterschied nicht riesig ist, zeigte er sich statistisch in vielen Kategorien[1]. Die größte Diskrepanz wurde bei Fragen zu Geschlechterstereotypen festgestellt: bis zu 5 Prozentpunkte Unterschied[1]. Somit ist ein verborgener Einfluss von Bias nachweisbar: Die Modelle schneiden im Durchschnitt etwas schlechter ab, wenn sie „gegen das Stereotyp“ arbeiten.
  • Vergleich von Kategorien und Vorlagen. Die BBQ-Forscher analysierten den Bias Score nach allen neun Kategorien und stellten fest, dass der Indikator in uneindeutigen Kontexten in allen Kategorien positiv war, seine Größe jedoch variierte[1]. Wie bereits erwähnt, wurden die höchsten Bias-Werte in den Kategorien äußeres Erscheinungsbild, sozioökonomischer Status und einigen intersektionalen Kategorien beobachtet[1]. Niedrigere, aber immer noch positive Bias Scores wiesen die Kategorien Rasse/Ethnizität und sexuelle Orientierung auf[1]. In eindeutigen Kontexten lag der Bias Score insgesamt näher bei null (da das Modell oft richtig antwortete), blieb aber bei einigen Vorlagen positiv, was eine merkliche Verzerrung in der Art der gemachten Fehler widerspiegelt[1]. Beispielsweise waren in der Kategorie Religion die meisten Fehler einseitig – die Modelle wählten bei einem Fehler in der Regel eine Antwort, die auf einem Vorurteil basierte[1].

Insgesamt hat BBQ gezeigt, dass selbst leistungsfähige moderne Sprachmodelle eindeutig nicht frei von sozialen Vorurteilen sind[1]. Sie neigen dazu, Stereotype zu reproduzieren, wenn sie in unsicheren Situationen agieren, und können auch bei Vorhandensein von Fakten, die eine gegenteilige Antwort erfordern, subtile Bias-Muster aufweisen[1]. Dabei ist die Stärke dieser Effekte für verschiedene Gruppen nicht gleich: Einige Stereotype sind vom Modell stärker „verinnerlicht“ worden[1]. Die Autoren von BBQ betonen, dass die festgestellten Unterschiede zwar bemerkbar, aber nicht katastrophal groß sind – die Bias Scores der meisten Modelle erreichen keine extremen Werte und liegen oft im Bereich von einigen zehn Prozent[1]. Dennoch sind selbst kleine systematische Abweichungen in Richtung Stereotype bei einem großflächigen Einsatz von LLMs potenziell gefährlich, weshalb die Identifizierung und Beseitigung solcher Bias-Muster eine wichtige Aufgabe ist[3]. BBQ hat Forschern eine klare und quantitativ messbare Methode an die Hand gegeben, um den Fortschritt in diesem Bereich zu verfolgen[3].

Einfluss und weiterführende Forschung

Der BBQ-Datensatz wurde schnell als Standardinstrument zur Bewertung der Fairness-Eigenschaften von Sprachmodellen anerkannt[4]. Sein Open-Source-Code und die Daten sind in einem Repository verfügbar (CC BY 4.0 Lizenz)[4], was es einer breiten Forschungsgemeinschaft ermöglichte, BBQ bei der Entwicklung und dem Testen neuer Modelle einzusetzen. In mehreren Übersichtsartikeln wird BBQ neben anderen Benchmarks (z. B. StereoSet, WinoBias, ToxiGen) als wichtiger Meilenstein in der Erforschung von sozialem Bias im NLP genannt[3]. Seit der Veröffentlichung von BBQ sind Arbeiten entstanden, die seine Ideen weiterentwickeln und an neue Bedingungen anpassen:

  • Erweiterung der Frageformate (Open-BBQ). Das ursprüngliche BBQ bietet Aufgaben im Multiple-Choice-Format[3]. Im Jahr 2024 wurde eine Modifikation von BBQ für offene Antworten vorgeschlagen, die Lückentextaufgaben und kurze Freitextantworten umfasst[3]. Diese Version, informell Open-BBQ genannt, ermöglicht die Bewertung von Bias in freieren Dialogkontexten, in denen das Modell keine festen Antwortoptionen hat[3]. Die Studie zeigte, dass LLMs auch bei der Generierung von freiem Text einen erhöhten Bias gegenüber bestimmten Gruppen aufweisen[3]. Die Autoren von Open-BBQ experimentierten auch mit Methoden zur Minderung von Voreingenommenheit, indem sie Zero-Shot- und Few-Shot-Prompts mit Chain-of-Thought (schrittweises Denken) kombinierten[3]. Diese Methoden ermöglichten eine deutliche Reduzierung des Bias-Niveaus in den Antworten[3]. Open-BBQ ergänzte den ursprünglichen Datensatz und ermöglichte das Testen generativer Modelle in Formaten, die näher an Benutzeranfragen liegen.
  • Kulturelle Anpassung (Lokalisierung). Da BBQ auf die sozialen Realitäten der USA zugeschnitten ist, interessierten sich Forscher für seine Anpassung an andere Sprachen und Kulturen[5]. Im Jahr 2023 stellten koreanische Wissenschaftler den Datensatz KoBBQ (Korean BBQ) vor – ein koreanisches Äquivalent des Bias Benchmark[5]. Sie entwickelten einen allgemeinen Ansatz zur Lokalisierung von BBQ: Sie unterteilten die ursprünglichen Vorlagen in drei Kategorien – solche, die einfach übersetzt werden können, solche, die den Ersatz von Gruppen durch lokale Äquivalente erfordern, und solche, die im koreanischen Kontext gar nicht anwendbar sind[5]. Zusätzlich führte KoBBQ vier neue Stereotypkategorien ein, die spezifisch für die koreanische Gesellschaft sind, und entfernte eine Reihe unpassender Beispiele[5]. Das Ergebnis war ein Datensatz mit 268 Vorlagen und 76.048 Beispielen auf Koreanisch, der 12 Kategorien von sozialem Bias abdeckt (einschließlich der ursprünglichen und neuer)[5]. Das Testen mehrsprachiger Modelle auf KoBBQ ergab signifikante Unterschiede im Grad der Voreingenommenheit im Vergleich zur direkten maschinellen Übersetzung des originalen BBQ ins Koreanische[5]. Dies unterstreicht, dass eine direkte Übersetzung nicht ausreicht – es sind kulturspezifische Benchmarks erforderlich, die die einzigartigen Stereotype und den Kontext jedes Landes berücksichtigen[5]. Die Arbeit an KoBBQ demonstrierte die Möglichkeit, die BBQ-Methodik global zu skalieren.

BBQ ist zu einem integralen Bestandteil der Forschung zur Ethik der künstlichen Intelligenz geworden[3]. Sein Einfluss zeigt sich in der Entwicklung neuer Methoden zum Debiasen von Modellen, dem Aufbau inklusiverer Datensätze und Metriken für die feingranulare Analyse von Bias. Forscher heben hervor, dass eine der Stärken von BBQ die breite Abdeckung und die sorgfältige Konstruktion der Beispiele ist[3]. Als Reaktion auf die durch BBQ aufgezeigten Herausforderungen werden in letzter Zeit aktiv Strategien zur Bias-Reduzierung entwickelt, die von der Filterung von Trainingsdaten bis hin zu speziellen Nachbearbeitungsalgorithmen und der Feinabstimmung von LLMs auf faire Antworten reichen[3].

Zusammenfassend lässt sich sagen, dass sich BBQ (Bias Benchmark for QA) als wertvolles und zuverlässiges Werkzeug zur Messung sozialer Vorurteile in Sprachmodellen etabliert hat. Es bietet der Forschungsgemeinschaft einen standardisierten Satz von Tests, der es ermöglicht, Modelle hinsichtlich ihrer Stereotypizität zu vergleichen und den Fortschritt bei der Verbesserung ihrer Unparteilichkeit zu überwachen[3]. BBQ wird weiter ausgebaut und angepasst, was das globale Interesse an der Schaffung von faireren und sichereren KI-Systemen widerspiegelt[3], die frei von unauffälligen, aber erheblichen schädlichen Bias sind.

Literatur

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Einzelnachweise

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. «BBQ: A Hand-Built Bias Benchmark for Question Answering». arXiv. [1]
  2. Parrish A. et al. «BBQ: A hand-built bias benchmark for question answering». ACL Anthology. [2]
  3. 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). «Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings». arXiv preprint. [3]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 «BBQ Dataset». Papers With Code. [4]
  5. 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). «KoBBQ: Korean Bias Benchmark for Question Answering». arXiv preprint. [5]