Minimax regret criterion (Savage criterion) — 萨维奇准则 (Savage's Criterion)
Jump to navigation
Jump to search
萨维奇准则(也称为最小遗憾准则)是在不确定性条件下进行决策的方法之一。它适用于各种结果的概率未知,且目标是最小化因做出非最优决策而导致的潜在损失的情况。
概述
在不确定性条件下,每种策略选择的后果都无法精确确定。为了评估可能的备选方案,可以使用多种准则,例如瓦尔德准则、赫维茨准则、拉普拉斯准则和萨维奇准则。萨维奇准则的目标不是实现最大利润,而是最小化最大遗憾值(与最佳可能结果相比的损失)。
遗憾值是一个量,反映了在特定结果下因未选择最优策略而错失的收益。
萨维奇准则的应用算法
- 构建支付矩阵:建立一个表格,其行对应可能的策略,列对应可能发生的事件结果。在行列交叉处记录特定策略和结果下的预期收益。
- 构建遗憾矩阵(风险矩阵):对于每个结果(列),确定最大收益值。然后,为每个单元格计算遗憾值。
- 确定每个策略的最大遗憾值:在遗憾矩阵的每一行中,选择最大值(即该策略的最坏情况)。
- 选择最优策略:选择最大遗憾值最小的策略。
因此,萨维奇准则实现了最小化因错误决策可能导致的损失的原则。
数学表述
假设给定:
- — 可用策略(备选方案)的集合。
- — 可能的自然状态的集合。
- — 选择策略 且出现状态 时的收益(效用)函数。通常表示为支付矩阵 ,其中 。
萨维奇准则基于遗憾(regret)或机会损失的概念。在自然状态为 时,策略 的遗憾值 定义为,在该自然状态 下可能获得的最大收益(即选择了对该状态最优的策略)与策略 的实际收益之差。
萨维奇准则的应用算法:
- 计算遗憾矩阵(风险矩阵):
- a) 找到每种自然状态(支付矩阵的每一列)的最大收益:
- 这是在状态 发生时可能得到的最佳结果。
- b) 计算遗憾矩阵 的元素:
- 元素 表示在状态 下,策略 的收益比可能的最大收益少多少。所有元素 。
- 找出每个策略的最大遗憾值: 对于每个策略 (遗憾矩阵 的每一行),确定其在遗憾方面的最坏可能结果:
- 选择具有最小最大遗憾值的策略(最小最大遗憾原则): 选择能使已找出的最大遗憾值最小化的策略 :
- 或者,代入 的表达式:
使用萨维奇准则达到的最小最大遗憾值等于:
因此,萨维奇准则旨在选择一个策略,以保证相对于每种自然状态下的最佳可能行动,其损失最小。
数学表述中的关键点:
- 遗憾值 的定义:这是核心概念。关键在于说明它是通过列 j 中的最佳结果与当前结果 a_{ij} 的差值计算得出的。
- 遗憾矩阵 :明确说明了其构建方法。
- 找到 :展示了在遗憾矩阵的每一行中寻找最大值的过程。
- 最小最大化原则:通过 和 对遗憾值进行策略选择的原则得到了清晰的阐述。
- 使用的符号:为博弈论和决策论中的标准符号(S, Θ, u, a_ij, r_ij, max, min, arg min)。
优缺点
优点:
- 注重风险最小化。
- 在高度不确定性条件下尤其有效。
缺点:
- 忽略了预期收益,仅关注可能的损失。
- 可能导致决策过于保守。
决策准则
- 赫维茨准则
- 拉普拉斯准则
- 瓦尔德准则
Category:Decision making