BERTScore (metric) — BERTスコア
BERTScoreは、生成されたテキストの品質を評価するための自動評価指標であり、BERTのような事前学習済み言語モデルから得られる文脈埋め込みを用いて意味的類似度を測定することに基づいています。この指標は2019年にTianyi Zhang氏が率いる研究者グループによって論文「BERTScore: Evaluating Text Generation with BERT」で提案されました[1]。
n-グラムの完全一致に基づくBLEUやROUGEのような従来の指標とは異なり、BERTScoreは、単語や表現が異なる場合でも、類義語や言い換えを考慮して意味の等価性を検出することができます[2]。
計算方法
BERTScoreの手法は、いくつかの段階から構成されます。
- 文脈埋め込みの取得: 参照テキストと生成テキストの両方をトークンに分割し、事前学習済みのトランスフォーマーモデル(例:BERTやRoBERTa)に入力します。各トークンについて、その文脈に応じたベクトル表現(埋め込み)を抽出します。
- コサイン類似度の計算: 2つのテキストのすべてのトークンペアに対してコサイン類似度を計算し、トークン間の類似度行列を作成します[3]。
- 適合率、再現率、F1スコアの計算: 類似度行列に基づき、生成テキスト内の各トークンに対して、参照テキスト内で最も類似したトークンを見つけ、それによって適合率(precision)を計算します。同様に、参照テキストの各トークンに対して、生成テキスト内で最も近いトークンを見つけることで再現率(recall)を算出します。最終的なBERTScoreの値は、適合率と再現率を組み合わせたバランスの取れたF₁スコアとなります。
この指標は柔軟性があり、異なる事前学習済みモデルを選択したり、トークンをその重要度に応じて重み付け(IDFウェイトを使用)したり、評価を線形変換して解釈可能性を高めたりすることが可能です[3]。
応用と有効性
BERTScoreは、様々なテキスト生成タスクにおける品質評価に応用されています。
- 機械翻訳: 翻訳の表現が参照文と異なる場合でも、意味が保持されているかを捉えます。
- 自動要約: 異なる表現が同じ主要な事実を伝えていることを判断できるため、ROUGEよりも柔軟です。
- 対話システム: 応答の妥当性を、参照文との意味レベルでの比較を通じて測定するのに役立ちます。
著者らによって行われた大規模な評価では、BERTScoreと人間の評価との相関係数は、BLEUやROUGEといった指標よりも著しく高いことが示されました。さらに、この指標は複雑な言い換えの事例に対して高い頑健性を示しました[1]。
利点
- 意味の考慮: 類義語や言い換えを考慮し、テキストを意味レベルで比較します。
- 人間との高い相関性: BERTScoreの評価は、従来の指標よりもテキストの品質に関する人間の判断とよく一致します。
- 汎用性と移植性: この指標は特定の言語やタスクに縛られず、適切な事前学習済みモデルを選択するだけで利用できます。
- 学習の不要性: BERTScoreは非学習ベースの指標であり、評価コーパスでの事前学習を必要とするより複雑な指標(例:BLEURT)とは異なります。
- 最新モデルの統合: トランスフォーマーの能力を活用して、深い文脈的特徴を抽出します。
限界と批判
- 高い計算コスト: 埋め込みに基づく計算は、n-グラムのカウントよりも大幅に多くのリソースを必要とし、しばしばGPUの使用が求められます[2]。
- モデルへの依存性: 評価の質は事前学習済みモデルの質に直接依存します。埋め込みを抽出するためのモデルや層の選択が結果に影響を与え、再現性の問題を引き起こす可能性があります[4]。
- 事実や構造の考慮不足: BERTScoreは局所的な意味的類似度に焦点を当てており、テキストの構造や事実の正確性を保証するものではありません。フレーズが入れ替わっていたり、事実に誤りがあったりするテキストが高いスコアを得る可能性があります[3]。
- 低い解釈可能性: BLEU/ROUGEとは対照的に、BERTScoreの指標は透明性が低く、エラー分析を困難にしています。
- 社会的バイアス: この指標は、事前学習済みモデルに内在するステレオタイプやバイアスを継承します。2022年の研究では、LLMベースの指標(BERTScoreを含む)は、従来の指標よりも著しく大きな社会的バイアスを示すことが明らかになりました[5]。
評価における意義と役割
BERTScoreは、単なる語彙的な一致だけでなく、意味的な等価性を考慮することを可能にした点で、生成テキストの評価手法の発展における重要な一歩です。いかなる自動評価指標もテキストの品質を完璧に測定することはできませんが、BERTScoreは古典的なアプローチ(BLEUやROUGEなど)を完全に置き換えるものではなく、それらを補完する信頼性の高いツールとして確立されています。
実際には、BERTScoreは、モデルが一貫性があり意味的に適切なテキストをどの程度生成できているかをより完全かつ深く理解するために、手動での専門家評価や他の指標と組み合わせて使用されることがよくあります[2]。
外部リンク
脚注
- ↑ 1.0 1.1 Zhang, Tianyi, et al. “BERTScore: Evaluating Text Generation with BERT”. arXiv:1904.09675 [cs.CL], 22 Apr. 2019. [1]
- ↑ 2.0 2.1 2.2 “BERTScore: New Metrics for Language Models”. Analytics Vidhya. [2]
- ↑ 3.0 3.1 3.2 Sojasingarayar, Abonia. “BERTScore Explained in 5 minutes”. Medium. [3]
- ↑ Alakulju, D., et al. “Reproducibility of BERTScore”. Theseus.fi. [4]
- ↑ Peyrard, M., et al. “BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation”. arXiv:2210.07626 [cs.CL], 14 Oct. 2022. [5]