BBQ (Bias Benchmark for Question Answering) — 質問応答バイアスベンチマーク

From Systems analysis wiki
Jump to navigation Jump to search

BBQ (Bias Benchmark for Question Answering)は、質問応答(QA)システムにおける社会的偏見(バイアス)を評価するためのデータセットです[1]。このデータセットは、アリシア・パリッシュ(Alicia Parrish)氏が率いるニューヨーク大学の研究者グループによって開発され、2022年のACL Findings会議で発表されました[1][2]。BBQの目的は、大規模言語モデル(LLM)やその他のQAモデルが、特に自然言語での質問応答の応用タスクにおいて、どのようにステレオタイプや偏見を回答に表出させるかを明らかにすることです[1]。BBQは、NLPにおける社会的バイアスを評価するための最も包括的なベンチマークの一つとなり、9つの社会的カテゴリーにわたる広範なステレオタイプをカバーしています[3]

このデータセットは、UnQoverデータセット(2020年)のような先行研究を補完するものです。UnQoverは、限られた特徴(ジェンダーと職業、国籍、民族、宗教)に関するバイアスを測定し、回答自体ではなくモデルの確率に依存していました[3]。UnQoverとは対照的に、BBQはモデルの回答内容と提示された選択肢の中からどれを選ぶかを直接分析するため、出力結果のレベルでバイアスを評価することが可能です[1]

BBQの作成者は、モデル内の有害な社会的ステレオタイプを診断し、そのようなステレオタイプが脆弱な集団に与える悪影響のリスクを低減するためのツールとして位置づけています[1]。このデータセットは、米国の英語圏文化に関連するステレオタイプに焦点を当てており、すべての文化的文脈を網羅しているわけではありません[1]。それにもかかわらず、BBQはNLPにおける社会的バイアスの測定と緩和に関する後続研究の基礎を築き、モデルの倫理的な正しさを比較する際の基準となりました。

データセットの構成と構造

BBQには約58,500件の質問と回答が含まれており、これらは特定のステレオタイプを検出することを目的とした特別なセットにグループ化されています[4]。すべてのサンプルは、様々な社会集団の代表者に害を及ぼす、記録された偏見やステレオタイプの事例に基づいて、作成者によって手作業で作成されました[4]。シナリオを作成する際には、科学的研究、メディア記事、報告書、その他、特定のステレオタイプの存在とその有害な結果を裏付ける信頼できる情報源からのデータが使用されました[1]。各状況について、作成者はそのステレオタイプが否定的または有害であると記述されている情報源(例えば、科学論文やニュース記事)へのリンクを示しています[1]

社会的カテゴリー

BBQは、9つの主要な社会的に重要なカテゴリーをカバーしています(ほとんどが米国雇用機会均等委員会の定義における保護対象グループに対応しています)[1]

  • 年齢 – 年齢層に対する偏見(例:高齢者は認知能力が低下するというステレオタイプ)[1]
  • 障害 – 障害を持つ人々の知的能力やその他の資質に関するステレオタイプ(例:身体的制約のある人は知的に劣っているという見方)[1]
  • ジェンダー・アイデンティティ – ジェンダーに関するステレオタイプ(例:「女の子は数学が苦手」という考え)[1]
  • 国籍 – 国籍・民族に関する偏見(例:アフリカ出身者は技術に疎いというステレオタイプ)[1]
  • 外見 – 外見や体型に基づく差別(例:肥満の人は知性が低い、または勤勉でないという意見)[1]
  • 人種・民族 – 人種に関するステレオタイプ(例:特定の人種を犯罪や薬物乱用と偏見を持って結びつけること)[1]
  • 宗教 – 宗教に関するステレオタイプ(例:ユダヤ人は貪欲、イスラム教徒は暴力に傾倒しやすいといった見方)[1]
  • 社会経済的地位 – 社会の貧困層または富裕層に対する偏見(例:貧しい家庭の出身者は良い親になれないという信念)[1]
  • 性的指向 – 同性愛嫌悪のステレオタイプ(例:同性愛とHIV感染を誤って関連付けること)[1]

これら9つのカテゴリーに加え、BBQには2つの交差的カテゴリー(intersectional biases)が含まれており、2つの特徴を同時に組み合わせています:(1)ジェンダーと人種・民族の組み合わせ、および(2)社会経済的地位と人種の組み合わせです[1]。このようなケースでは、異なるグループの交差点で生じるステレオタイプ(例えば、特に黒人女性に対する偏見や、特定の低社会階級の民族に対する偏見)が考慮されます。

テンプレートとサンプルの生成

各カテゴリーについて、チームはシナリオテンプレートを作成しました。これは、対象となる特徴によって異なる2人の人物が登場する短いスケッチです(例:若者と高齢者、男性と女性、富裕層と貧困層など)[4]。テンプレートには、既知のステレオタイプを肯定または否定しうる状況が組み込まれています。各シナリオには、質問と回答の選択肢が関連付けられています。

合計で、9つの主要カテゴリーそれぞれに25のユニークなテンプレートが開発され、さらに人種とジェンダーのカテゴリーには実名を使用した25の追加テンプレートが作成されました(固有名詞レベルでのバイアスを検証するため)[1]。また、2つの交差的分野についてもそれぞれ25のテンプレートが作成されました[1]。これにより、基本的なシナリオの総数は300を超えます。

各テンプレートには、テキストに挿入されるグループ名や記述などの変数用の特別なスロットが含まれています(例えば、年齢のテンプレートでは「_歳の人物」の代わりに様々な数字が挿入されたり、外見では「太った」/「痩せた」などの形容詞が挿入されたりします)[1]。様々な値を代入し、2人の人物の言及順序を入れ替えることで、各テンプレートは多数の具体的なサンプル(最低8から最大約200のバリエーション)に拡張されます[1]。通常、1つのテンプレートから少なくとも100の最終的な質問が生成され、場合によっては200に達することもあります[1]。その結果、合計で58,492のサンプル(シナリオ、質問、回答のユニークな組み合わせ)からなるコーパスが作成されました[4]

コンテキストと質問のタイプ

BBQの重要な特徴は、各状況が2つのバリエーションのコンテキストと2つの質問形式で提示され、4つの質問からなるセット(いわゆる4つのクラスタ)を形成することです[1]。これは、情報不足の影響をモデル自身のステレオタイプから切り分けるために行われます。各カルテットにおいて[1]

  • 曖昧なコンテキスト (under-informative or ambiguous context): 異なるグループに属する2人の人物が登場する状況が記述されているが、提示された質問に明確に答えるための十分な情報が含まれていないテキスト[1]。このような場合、正しい答えは常に「不明」(すなわち十分なデータがないこと)です[1]。これらのサンプルは、モデルがステレオタイプに基づいて結論を導き出さないかを検証するために必要です。
  • 明確なコンテキスト (disambiguated context): 拡張されたシナリオで、言及された2人のうちどちらが質問に該当するかを特定できる詳細が追加されています[1]。この場合、2人の登場人物のどちらかが明確に正解となります(そして「不明」という選択肢は不正解になります)。明確なコンテキストは、モデルが自身の潜在的なバイアスを克服し、ステレオタイプが逆を示唆していても正しい答えを選べるかを検証するために用いられます[1]
  • ネガティブな質問 (e.g., 「どちらがその科目をよく知らないか?」、「どちらが犯罪を犯したか?」)[1]。このような質問は、曖昧なコンテキストと組み合わせることで、モデルが事実がない状況で特定のグループに否定的な行動を結びつける傾向があるかを検証します[1]
  • 非ネガティブ(対照的)な質問 (e.g., 「どちらがその科目をよく知っているか?」または「どちらが悪い行いを控えているか?」)[1]。非ネガティブな質問は、ステレオタイプを直接肯定するようには聞こえないが、モデルの回答のバランスを検証できるように作られています[1]。ネガティブ版とニュートラル版への回答を比較することで、体系的な偏りが明らかになります。

クラスタ内のこれら4つのサンプルのそれぞれには、3つの回答選択肢があります:2つの具体的な選択肢(登場する2つのグループのそれぞれを指す)と、十分な情報がないことを示す1つの選択肢(「Unknown」および同等のフレーズで示される)です[1]。例えば、キリスト教徒とイスラム教徒が登場する場面では、回答の選択肢は「キリスト教徒」、「イスラム教徒」、または「不明」となります[1]。なお、「不明」という言葉は常に同じではなく、10の同義表現が使用されます[1]

さらに、各テンプレートでは2つのグループの言及順序が自動的に変更されます[1]。これは、モデルが内容に関係なく最初に言及されたエンティティをより頻繁に選択する可能性があるという既知の要因である順序効果を無効にするために行われます[1]

アノテーションと品質検証

BBQの各サンプルは、クラウドソーシングのアノテーターによって評価されました:少なくとも5人の独立した人々が質問に答え、最終的なデータセットにはアノテーター5人中4人以上が正解に同意したサンプルのみが含まれました(多数決による)[1]。いずれかの質問がこの基準を満たさなかった場合、テンプレート全体が見直され、編集されました[1]。このプロセスのおかげで、BBQにおける人間の正解率は非常に高く、個々のアノテーターは質問の約95.7%に正しく答え、多数決を考慮するとゴールドスタンダードの正解率は99.7%に達します[1]。一致度に関するカッパ係数(Krippendorff's alpha)は0.883であり、これは正解に関する人間同士の高い一致度を示しています[1]。これらの指標は、BBQのタスクが人間にとって理解しやすく、客観的に正しい答えがあることを裏付けています。したがって、これらのサンプルに対するモデルの誤りは、質問自体の曖昧さではなく、バイアスの現れとして合理的に解釈できます。

モデルのバイアス評価

BBQは、社会的バイアスを誘発する状況下でのモデルの振る舞いを多角的に評価するために設計されています。QAモデルをテストする際、モデルはコンテキストと質問を入力として受け取り、3つの回答選択肢の中から1つを選ばなければなりません。結果の分析は2つのレベルで行われます[1]

曖昧なコンテキストの場合

必要な情報がない場合に、モデルがどれくらいの頻度で質問に誤って答えるか、すなわちステレオタイプに依存するかが測定されます[1]。理想的には、モデルはコンテキストが不十分な質問にはすべて「不明」と答えるべきですが、いずれかのグループを選択した場合、それは内在するステレオタイプの投影と見なされます[1]。このような誤りの頻度とそのカテゴリーごとの分布は、モデルが有害なステレオタイプを再生産する傾向についての洞察を与えます。

有益なコンテキストの場合

コンテキストに明確な正解が含まれている場合に、モデルがどれだけ正確に答えるかが評価されます[1]。ここでは通常、標準的な指標である正解率(accuracy)が計算され、モデルが質問応答タスクを基本的にこなせるかどうかを示します。しかし、特に注意が払われるのは、正解がステレオタイプと矛盾する場合です[1]。BBQの開発者たちは、正解が根深いステレオタイプに反する場合にモデルの正解率が低下しないか(また、逆に、真実がステレオタイプの期待と一致する場合に正解率が高くならないか)を分析します[1]。このような効果は、事実が存在する場合でも、モデルがバイアスのために誤りを犯す可能性があることを示唆します。

Bias Score - バイアススコア

バイアスの程度を定量的に評価するために、特別な指標であるバイアススコア (bias score)が導入されます[1]。一般的に、バイアススコアは、ステレオタイプと一致するモデルの回答の割合(条件に応じて、誤答または全回答のうち)を反映します[1]

  • +100% の値は、モデルがすべての場合において、対象グループに否定的な性質をステレオタイプ的に帰属させる回答選択肢を選んだことを意味します。
  • 0% は、バイアスの兆候がないこと(モデルが常に正しく答えるか「不明」と答えるか、または両方向に均等に誤る)を意味します。
  • 負のスコア(最大-100%)は、モデルが常にステレオタイプの期待に反して答える逆の傾向を示します[1]

スコアは、曖昧なコンテキストと明確なコンテキストで誤りの性質が異なるため、別々に計算されます[1]

  • 曖昧な質問の場合、バイアススコアは、モデルが「不明」の代わりに特定の回答を選択し、その回答が否定的なステレオタイプと一致したケースの割合によって決定されます[1]。そのような回答が多いほど、正のスコアが高くなります。この際、正解率も考慮されます。モデルが均等に誤答し、正しく(「不明」と)答える場合、ステレオタイプ的な誤りが一部あっても、常にステレオタイプ的な回答を選択するモデルよりもスコアは低くなります[1]。したがって、バイアス回答の頻度と確信度の両方がペナルティの対象となります(曖昧なコンテキストでは、この指標は「不明」という正解の割合を考慮してスケーリングされます)[1]
  • 明確な質問の場合、バイアススコアの計算方法は少し異なります。なぜなら、ここでの正解はグループの1つだからです[1]。これらのケースでは、モデルの不正解に注目します。つまり、モデルが正解ではなく、ステレオタイプと一致する別の選択肢を選んだ誤りの割合です[1]。言い換えれば、モデルが偏見を優先して誤った場合(例えば、事実を信じずにステレオタイプに基づいて答えた場合)、スコアは増加します[1]

バイアススコアと全体的な正解率を併せて分析することで、BBQにおけるモデルの振る舞いを詳細に特徴づけることができます。作成者たちは、同じ正解率でも誤りの性質が異なる場合があることを指摘しています[1]。このように、この指標は誤りの方向性を示し、正解率だけでは見えない微妙なケースを明らかにします。

結果と明らかになったパターン

いくつかの人気のあるQAモデルをBBQデータセットで初めてテストした結果、多くの明確なバイアスの兆候が示されました[1]。Parrishら(2022)の研究では、大規模な汎用モデル(例:UnifiedQA – T5ベースの汎用QAモデル)と、標準的な多肢選択式モデル(例:QAでファインチューニングされたROBERTA)の両方がテストされました[1]

実験結果から得られた主な結論は以下の通りです:

  • 情報不足時の強いステレオタイプエラー。テストされたすべてのシステムで、コンテキストが必要な手がかりを提供しない場合にステレオタイプに沿った回答をする傾向が観察されました[1]。言い換えれば、モデルはしばしば「不明」という選択肢を選ばず、何らかのステレオタイプ的な期待に対応する具体的な回答を好みました[1]。例えば、明確な犯人がいない犯罪に関する曖昧な質問では、モデルはしばしば特定のグループ(偏見に対応する)の人物を指摘しました[1]。曖昧なコンテキストに対して計算されたバイアススコアは、ゼロを大幅に上回り、一部のモデルでは特定のカテゴリーで+100%に近づくこともありました[1]。特に、外見(肥満など)に関連するシナリオで、モデルはステレオタイプ的な回答への高い傾向を示しました。このカテゴリーは、例えば人種や性的指向よりも著しく大きなバイアスを生み出しました[1]。これは、モデル内のバイアスが不均一であることを示唆しています。つまり、ある種のステレオタイプは他のものよりも強く「学習」されているのです。
  • 事実がある場合の改善、しかし潜在的バイアスの残存。モデルが明確な正解を示す明確なコンテキストを与えられると、その正解率は著しく向上しました(不明確な状況と比較して)[1]。しかし、詳細な分析により、微妙な効果が明らかになりました。正解率は正解とステレオタイプの関係によって不均一でした[1]。平均して、モデルは、正解が一般的なステレオタイプと一致するサンプルにおいて、正解がそのステレオタイプに反するサンプルと比較して3〜3.5パーセントポイント高い正解率を達成しました[1]。言い換えれば、事実が偏見を裏付ける場合、モデルはほぼ間違いなく答えましたが、「非典型的」なステレオタイプの選択肢を答える必要がある場合、誤りの可能性が高まりました。このパフォーマンスの差は巨大ではありませんが、多くのカテゴリーで統計的に現れました[1]。最大の差が記録されたのは、ジェンダー・ステレオタイプに関連する質問で、最大5パーセントポイントの差がありました[1]。したがって、バイアスの隠れた影響が見られます。モデルは平均して、「ステレオタイプに反する」場合にわずかにパフォーマンスが低下します。
  • カテゴリーとテンプレートの比較。BBQの研究者たちは、9つのカテゴリーすべてについてバイアススコアを分析し、曖昧なコンテキストではすべてのカテゴリーでスコアが正であるものの、その大きさは様々であることを発見しました[1]。前述の通り、最大のバイアスは身体的外見、社会経済的地位、およびいくつかの交差的カテゴリーで観察されました[1]。人種・民族および性的指向のカテゴリーでは、バイアススコアはより「低い」ものの、ゼロではありませんでした[1]。明確なコンテキストでは、バイアススコアは全体的にゼロに近くなりますが(モデルがしばしば正しく答えるため)、それでも一部のテンプレートでは正の値を保ち、犯された誤りの性質に顕著な偏りがあることを反映しています[1]。例えば、宗教のカテゴリーでは、誤りのほとんどが一方向的でした。モデルは誤りを犯す際、通常、偏見に基づいた回答を選択しました[1]

全体として、BBQは、強力な現代の言語モデルでさえも社会的偏見から明らかに自由ではないことを示しました[1]。これらのモデルは、不確実な状況に置かれるとステレオタイプを再生産する傾向があり、逆の答えを要求する事実がある場合でさえも、微妙なバイアスを示すことがあります[1]。同時に、これらの効果の大きさはグループによって異なり、一部のステレオタイプはモデルによってより強く「学習」されています[1]。BBQの作成者たちは、発見された差異は顕著であるものの、壊滅的に大きいわけではないと強調しています。ほとんどのモデルのバイアススコアは極端な値には達さず、多くは数十パーセントの範囲に収まっています[1]。それにもかかわらず、ステレオタイプへのわずかな体系的な逸脱でさえ、LLMが大規模に使用される場合には潜在的に危険であるため、そのようなバイアスの特定と除去は重要な課題です[3]。BBQは、研究者たちにこの分野での進捗を追跡するための明確で定量的に測定可能な方法を提供しました[3]

影響と今後の研究

BBQデータセットは、言語モデルの公平性の特性を評価するための標準的なツールとして、すぐに認知されるようになりました[4]。そのオープンソースのコードとデータはリポジトリで利用可能であり(CC BY 4.0ライセンス)[4]、幅広い研究コミュニティが新しいモデルの開発とテストにBBQを適用することを可能にしました。多くのレビューで、BBQは他のベンチマーク(例えば、StereoSet、WinoBias、ToxiGen)と並んで、NLPにおける社会的バイアスの研究における重要なマイルストーンとして言及されています[3]。BBQの公開以来、そのアイデアを発展させ、新しい条件に適応させる研究が登場しています:

  • 質問形式の拡張(Open-BBQ)。オリジナルのBBQは、多肢選択式のタスクを提供します[3]。2024年には、自由回答のためのBBQの修正版が提案され、これには穴埋め問題や短い自由記述回答のタスクが含まれています[3]。このバージョンは、通称Open-BBQと呼ばれ、モデルが固定された回答選択肢を持たない、より自由な対話条件下でのバイアスを評価することを可能にします[3]。この研究では、LLMが自由なテキストを生成する際にも、一部のグループに対して高いバイアスを示すことが示されました[3]。Open-BBQの作成者たちはまた、zero-shotおよびfew-shotプロンプトとchain-of-thought(段階的推論)を組み合わせることで、バイアスを緩和する方法も実験しました[3]。これらの手法により、回答におけるバイアスのレベルを著しく低下させることができました[3]。Open-BBQは、元のデータセットを補完し、ユーザーのクエリに近い形式で生成モデルをテストすることを可能にしました。
  • 文化的適応(ローカライゼーション)。BBQは米国の社会的事情に基づいているため、研究者たちは他の言語や文化への適応に関心を持ちました[5]。2023年、韓国の研究者によってデータセットKoBBQ(Korean BBQ)が発表されました。これはBias Benchmarkの韓国版です[5]。彼らはBBQをローカライズするための一般的なアプローチを開発しました。元のテンプレートを3つのカテゴリーに分類しました:単に翻訳できるもの、グループを現地の同等なものに置き換える必要があるもの、そして韓国の文脈では全く適用できないものです[5]。さらに、KoBBQは韓国社会に特有の4つの新しいステレオタイプのカテゴリーを導入し、不適切なサンプルをいくつか削除しました[5]。その結果、韓国語で268のテンプレートと76,048のサンプルからなるデータセットが作成され、12の社会的バイアスカテゴリー(オリジナルと新規を含む)をカバーしています[5]。多言語モデルをKoBBQでテストした結果、元のBBQを韓国語に機械翻訳した場合と比較して、バイアスのレベルに大きな違いがあることが明らかになりました[5]。これは、単純な翻訳では不十分であり、各国の独自のステレオタイプと文脈を考慮した文化固有のベンチマークが必要であることを強調しています[5]。KoBBQに関する研究は、BBQの方法論をグローバルに拡張する可能性を示しました。

BBQは、人工知能の倫理に関する研究の不可欠な部分となりました[3]。その影響は、モデルのデバイアシングのための新しい手法、より包括的なデータセットの構築、およびバイアスを詳細に分析するための指標の登場に見られます。研究者たちは、BBQの強みの一つが、その広範なカバレッジとサンプルの綿密な設計にあると指摘しています[3]。BBQによって示された課題に応えて、最近では、トレーニングデータのフィルタリングから、公正な回答を得るための特別な後処理アルゴリズムやLLMの調整まで、バイアスを低減する戦略が活発に開発されています[3]

要約すると、BBQ (Bias Benchmark for QA) は、言語モデルにおける社会的偏見を測定するための価値ある信頼性の高いツールとしての地位を確立しました。それは研究コミュニティに、モデルのステレオタイプ性を比較し、その公平性の向上における進捗を監視することを可能にする標準的な検証セットを提供します[3]。BBQは、目立たないが重大な有害なバイアスから解放された、より公正で安全なAIシステムを構築するという世界的な関心を反映して、拡大と適応を続けています[3]

リンク

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注釈

  1. 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 Parrish A. et al. "BBQ: A Hand-Built Bias Benchmark for Question Answering". arXiv. [1]
  2. Parrish A. et al. "BBQ: A hand-built bias benchmark for question answering". ACL Anthology. [2]
  3. 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 Liu Z. et al. (2024). "Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings". arXiv preprint. [3]
  4. 4.0 4.1 4.2 4.3 4.4 4.5 "BBQ Dataset". Papers With Code. [4]
  5. 5.0 5.1 5.2 5.3 5.4 5.5 5.6 Jin J. et al. (2024). "KoBBQ: Korean Bias Benchmark for Question Answering". arXiv preprint. [5]