Minimax regret criterion (Savage criterion) — サベージの基準

From Systems analysis wiki
Jump to navigation Jump to search

サベージの基準最小リグレット基準としても知られる)は、不確実性下での意思決定手法の一つです。この基準は、様々な結果の発生確率が不明な状況で適用され、最適でない決定を下したことによる潜在的な損失を最小化することを目的とします。

概要

不確実性下では、各戦略を選択した結果は正確には定まりません。考えられる代替案を評価するために、ワルドの基準、ハーウィッツの基準、ラプラスの基準、そしてサベージの基準といった一連の基準が用いられます。サベージの基準は、最大利益の達成ではなく、最大リグレットの最小化(最良の結果と比較した場合の損失)に焦点を当てています。

リグレットとは、特定の状態が発生した際に最適でない戦略が選択されたために生じた機会損失を表す値です。

サベージの基準の適用アルゴリズム

  • 利得行列の作成:行が選択可能な戦略、列が発生しうる事象の状態に対応する表を作成します。各セルには、特定の戦略と状態における期待される結果を記入します。
  • リグレット行列(リスク行列)の構築:各状態(列)について、最大の利得値を特定します。次に、各セルについてリグレットの値を計算します。
  • 各戦略の最大リグレットの特定:リグレット行列の各行から最大値(その戦略における最悪のケース)を選択します。
  • 最適戦略の選択:最大リグレットが最小となる戦略を選択します。

このように、サベージの基準は、誤った決定による潜在的な損失を最小化する原則を実装しています。

数学的定式化

以下が与えられているとします。

  • S={s1,s2,,sm} — 選択可能な戦略(代替案)の集合。
  • Θ={θ1,θ2,,θn} — 起こりうる自然の状態の集合。
  • u(si,θj) — 戦略 si を選択し、状態 θj が発生した場合の利得(効用)関数。これはしばしば利得行列 A=[aij] で表され、ここで aij=u(si,θj) となります。

サベージの基準は、リグレット(regret)または機会損失という概念に基づいています。戦略 si と自然の状態 θj におけるリグレット r(si,θj) は、その状態 θj で得られたであろう最大可能利得(その状態に最適な戦略が選択されていた場合)と、戦略 si による実際の利得との差として定義されます。

サベージの基準の適用アルゴリズム:

  1. リグレット行列(リスク行列)の計算:
    a) 各自然の状態(利得行列の各列)における最大利得を求める:
    uj*=maxk=1,,mu(sk,θj)=maxk=1,,makj
    これは、状態 θj が発生した場合の最良の結果です。
    b) リグレット行列の要素 R=[rij] を計算する:
    rij=r(si,θj)=uj*u(si,θj)=(maxk=1,,makj)aij
    要素 rij は、戦略 si による利得が、状態 θj における最大可能利得よりもどれだけ小さいかを示します。すべての要素 rij0 となります。
  1. 各戦略の最大リグレットを求める: 各戦略 si(リグレット行列 R の各行)について、リグレットの観点から最悪の結果を特定します:
    rimax=maxj=1,,nrij=maxj=1,,n((maxk=1,,makj)aij)
  1. 最小の最大リグレットを持つ戦略を選択する(リグレットのミニマックス原理): 見つかった最大リグレットを最小化する戦略 sSavage* を選択します:
    sSavage*=argmini=1,,m(rimax)=argminsiS(maxθjΘr(si,θj))
    あるいは、rij の式を代入すると:
    sSavage*=argmini=1,,m(maxj=1,,n[(maxk=1,,makj)aij])

サベージの基準を用いて達成される最大リグレットの最小値は次のようになります: VSavage=mini=1,,m(rimax)=mini=1,,m(maxj=1,,nrij)

このように、サベージの基準は、各自然の状態に対して最良の行動と比較して、最小の損失を保証する戦略を選択することを目的としています。


数学的定式化における重要なポイント:

  • リグレット rij の定義:これが中心的な概念です。列 j における最良の結果と現在の結果 a_{ij} の差として計算されることを示すことが重要です。
  • リグレット行列 R:その構築方法が明示されています。
  • rimax の発見:リグレット行列の各行で最大値を探すことが示されています。
  • ミニマックス原理:リグレットの max から argmin を通じて戦略を選択することが明確に定式化されています。
  • 使用される記号:ゲーム理論や意思決定論で標準的なものが使用されています(S, Θ, u, a_ij, r_ij, max, min, arg min)。


長所と短所

長所:

  • リスクの最小化に焦点を当てている。
  • 特に不確実性が高い状況で効果的である。

短所:

  • 期待利得を無視し、起こりうる損失のみに焦点を当てる。
  • 過度に保守的な決定につながる可能性がある。

意思決定基準

  • ハーウィッツの基準
  • ラプラスの基準
  • ワルドの基準

Category:Decision making