Minimax regret criterion (Savage criterion) — 萨维奇准则 (Savage's Criterion)

From Systems analysis wiki
Jump to navigation Jump to search

萨维奇准则(也称为最小遗憾准则)是在不确定性条件下进行决策的方法之一。它适用于各种结果的概率未知,且目标是最小化因做出非最优决策而导致的潜在损失的情况。

概述

在不确定性条件下,每种策略选择的后果都无法精确确定。为了评估可能的备选方案,可以使用多种准则,例如瓦尔德准则、赫维茨准则、拉普拉斯准则和萨维奇准则。萨维奇准则的目标不是实现最大利润,而是最小化最大遗憾值(与最佳可能结果相比的损失)。

遗憾值是一个量,反映了在特定结果下因未选择最优策略而错失的收益。

萨维奇准则的应用算法

  • 构建支付矩阵:建立一个表格,其行对应可能的策略,列对应可能发生的事件结果。在行列交叉处记录特定策略和结果下的预期收益。
  • 构建遗憾矩阵(风险矩阵):对于每个结果(列),确定最大收益值。然后,为每个单元格计算遗憾值。
  • 确定每个策略的最大遗憾值:在遗憾矩阵的每一行中,选择最大值(即该策略的最坏情况)。
  • 选择最优策略:选择最大遗憾值最小的策略。

因此,萨维奇准则实现了最小化因错误决策可能导致的损失的原则。

数学表述

假设给定:

  • S={s1,s2,,sm} — 可用策略(备选方案)的集合。
  • Θ={θ1,θ2,,θn} — 可能的自然状态的集合。
  • u(si,θj) — 选择策略 si 且出现状态 θj 时的收益(效用)函数。通常表示为支付矩阵 A=[aij],其中 aij=u(si,θj)

萨维奇准则基于遗憾(regret)或机会损失的概念。在自然状态为 θj 时,策略 si 的遗憾值 r(si,θj) 定义为,在该自然状态 θj 下可能获得的最大收益(即选择了对该状态最优的策略)与策略 si 的实际收益之差。

萨维奇准则的应用算法:

  1. 计算遗憾矩阵(风险矩阵):
    a) 找到每种自然状态(支付矩阵的每一列)的最大收益:
    uj*=maxk=1,,mu(sk,θj)=maxk=1,,makj
    这是在状态 θj 发生时可能得到的最佳结果。
    b) 计算遗憾矩阵 R=[rij] 的元素:
    rij=r(si,θj)=uj*u(si,θj)=(maxk=1,,makj)aij
    元素 rij 表示在状态 θj 下,策略 si 的收益比可能的最大收益少多少。所有元素 rij0
  1. 找出每个策略的最大遗憾值: 对于每个策略 si(遗憾矩阵 R 的每一行),确定其在遗憾方面的最坏可能结果:
    rimax=maxj=1,,nrij=maxj=1,,n((maxk=1,,makj)aij)
  1. 选择具有最小最大遗憾值的策略(最小最大遗憾原则): 选择能使已找出的最大遗憾值最小化的策略 sSavage*
    sSavage*=argmini=1,,m(rimax)=argminsiS(maxθjΘr(si,θj))
    或者,代入 rij 的表达式:
    sSavage*=argmini=1,,m(maxj=1,,n[(maxk=1,,makj)aij])

使用萨维奇准则达到的最小最大遗憾值等于: VSavage=mini=1,,m(rimax)=mini=1,,m(maxj=1,,nrij)

因此,萨维奇准则旨在选择一个策略,以保证相对于每种自然状态下的最佳可能行动,其损失最小。

数学表述中的关键点:

  • 遗憾值 rij 的定义:这是核心概念。关键在于说明它是通过列 j 中的最佳结果与当前结果 a_{ij} 的差值计算得出的。
  • 遗憾矩阵 R:明确说明了其构建方法。
  • 找到 rimax:展示了在遗憾矩阵的每一行中寻找最大值的过程。
  • 最小最大化原则:通过 argminmax 对遗憾值进行策略选择的原则得到了清晰的阐述。
  • 使用的符号:为博弈论和决策论中的标准符号(S, Θ, u, a_ij, r_ij, max, min, arg min)。

优缺点

优点:

  • 注重风险最小化。
  • 在高度不确定性条件下尤其有效。

缺点:

  • 忽略了预期收益,仅关注可能的损失。
  • 可能导致决策过于保守。

决策准则

  • 赫维茨准则
  • 拉普拉斯准则
  • 瓦尔德准则

Category:Decision making