Dynamic Programming
DP方法简介
- 由于其大量的计算损耗,已经不实用,但理论上非常重要。
- 本书后续的所有方法可以看做想要取得和DP类似的效果;只不过是减少了计算或者假设没有完美的环境模型。
- 假设解决的问题是有限的MDP,即给定动作a,状态s,和奖励r,可以通过\(p(s',r|s,a)\)描述动态变化。
问题描述:重复面临有k种选择的情况,每一次选择之后,都会收到一个reward。这个reward服从一个跟你的选择相关的分布。你的目标是,在选择t次后,找到最大的期望reward。
为什么叫K臂老虎机:有K个单臂老虎机,每个时间节点,你可以选择K个中任意一个老虎机选择按下它的臂,然后获得一个奖励。目标自然是多次选择之后的累计奖励最大。
条件概率分布\(P(X=x|Y=c_k)\)有指数级数量的参数,其实际估计是不可行的
指数级数量的参数 \(K\prod_{j=1}^nS_j\),实际估计不可行是实际上没有那么多样本
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法
在CRF系列的前两篇,我们总结了CRF的模型基础与第一个问题的求解方法,本文我们关注于linear-CRF的第二个问题与第三个问题的求解。第二个问题是模型参数学习的问题,第三个问题是维特比算法解码的问题。