Minimax regret criterion (Savage criterion) — 萨维奇准则 (Savage's Criterion)

萨维奇准则（也称为最小遗憾准则）是在不确定性条件下进行决策的方法之一。它适用于各种结果的概率未知，且目标是最小化因做出非最优决策而导致的潜在损失的情况。

概述

在不确定性条件下，每种策略选择的后果都无法精确确定。为了评估可能的备选方案，可以使用多种准则，例如瓦尔德准则、赫维茨准则、拉普拉斯准则和萨维奇准则。萨维奇准则的目标不是实现最大利润，而是最小化最大遗憾值（与最佳可能结果相比的损失）。

遗憾值是一个量，反映了在特定结果下因未选择最优策略而错失的收益。

因此，萨维奇准则实现了最小化因错误决策可能导致的损失的原则。

假设给定：

$S = {s_{1}, s_{2}, \dots, s_{m}}$ — 可用策略（备选方案）的集合。
$Θ = {θ_{1}, θ_{2}, \dots, θ_{n}}$ — 可能的自然状态的集合。
$u (s_{i}, θ_{j})$ — 选择策略 $s_{i}$ 且出现状态 $θ_{j}$ 时的收益（效用）函数。通常表示为支付矩阵 $A = [a_{i j}]$ ，其中 $a_{i j} = u (s_{i}, θ_{j})$ 。

萨维奇准则基于遗憾（regret）或机会损失的概念。在自然状态为 $θ_{j}$ 时，策略 $s_{i}$ 的遗憾值 $r (s_{i}, θ_{j})$ 定义为，在该自然状态 $θ_{j}$ 下可能获得的最大收益（即选择了对该状态最优的策略）与策略 $s_{i}$ 的实际收益之差。

萨维奇准则的应用算法：

计算遗憾矩阵（风险矩阵）：
a) 找到每种自然状态（支付矩阵的每一列）的最大收益：

$u_{j}^{*} = \max_{k = 1, \dots, m} u (s_{k}, θ_{j}) = \max_{k = 1, \dots, m} a_{k j}$

这是在状态 $θ_{j}$ 发生时可能得到的最佳结果。

b) 计算遗憾矩阵 $R = [r_{i j}]$ 的元素：

$r_{i j} = r (s_{i}, θ_{j}) = u_{j}^{*} - u (s_{i}, θ_{j}) = (\max_{k = 1, \dots, m} a_{k j}) - a_{i j}$

元素 $r_{i j}$ 表示在状态 $θ_{j}$ 下，策略 $s_{i}$ 的收益比可能的最大收益少多少。所有元素 $r_{i j} \geq 0$ 。

找出每个策略的最大遗憾值： 对于每个策略 $s_{i}$ （遗憾矩阵 $R$ 的每一行），确定其在遗憾方面的最坏可能结果：
$r_{i}^{\max} = \max_{j = 1, \dots, n} r_{i j} = \max_{j = 1, \dots, n} ((\max_{k = 1, \dots, m} a_{k j}) - a_{i j})$

选择具有最小最大遗憾值的策略（最小最大遗憾原则）： 选择能使已找出的最大遗憾值最小化的策略 $s_{Savage}^{*}$ ：
$s_{Savage}^{*} = \arg \min_{i = 1, \dots, m} (r_{i}^{\max}) = \arg \min_{s_{i} \in S} (\max_{θ_{j} \in Θ} r (s_{i}, θ_{j}))$

或者，代入 $r_{i j}$ 的表达式：

$s_{Savage}^{*} = \arg \min_{i = 1, \dots, m} (\max_{j = 1, \dots, n} [(\max_{k = 1, \dots, m} a_{k j}) - a_{i j}])$

使用萨维奇准则达到的最小最大遗憾值等于： $V_{Savage} = \min_{i = 1, \dots, m} (r_{i}^{\max}) = \min_{i = 1, \dots, m} (\max_{j = 1, \dots, n} r_{i j})$

因此，萨维奇准则旨在选择一个策略，以保证相对于每种自然状态下的最佳可能行动，其损失最小。

数学表述中的关键点：

优点：

缺点：

Category:Decision making