强化学习
- 交互学习:通过交互学习一个目标,Trial and Error
- 状态/奖励的分布式是策略依赖的
- model-base: 根据已知数据计算,如动态规划
- model-free: 取样试验得到
- 在线学习:如 Sarsa
- 离线学习:如 Q Learning
Markov Decision Process
- : 状态集合
- : 动作集合
- : 即时奖励函数
- : 状态转移概率
- 轨迹:经验/情节(episode)
- 策略
- 单状态学习,
- 多状态学习:
- 有限状态:
- 无限状态
- 有折扣:
- 无折扣:
- 值函数
- 为最优策略
- Bellman 等式:
动态规划方法
- 策略评估(Policy Evaluation):MDP 已知,给定一个策略 ,评估返回值
- 有限状态:求解方程组
- 策略迭代:初始 后根据 Bellman 等式更新迭代
- 最优控制(Optiomal Control):MDP 已知,寻找一个最优策略
- 策略迭代算法
- 值迭代:
- 策略迭代
贪心策略:
-贪心策略:以 概率选择其它
- 策略迭代算法
Morte Carlo Method
- 使用条件
- 环境可模拟
- 有限步骤
- 策略评估迭代
- 探索:选择一个状态
- 模拟:使用 进行若干次模拟,从当前状态到结束,产生一段轨迹
- 抽样:获得轨迹上的 , 获得集合
- 估值: Learned value
- 策略优化:, 优化
- Exploring Starts 假设:有探索起点的环境
- first-visit:只计算一个状态第一次的值
- every-visit: 计算每次访问的值
时差方法 (Temporal Difference)
- 单步时差方法:
- TD(0) 误差:
- 步时差方法:
- 步回退方法:
- 返回方法:
- 蒙特卡洛的方法可看做是最大步数的时序差分学习
Sarsa Algorithm
-
- choose : -Greedy
- choose : -Greedy
- on-policy: 评估和优化的策略和模拟的策略是同一个
Q Algorithm
-
- choose : -Greedy
- choose : Greedy
- off-policy: 评估和优化的策略和模拟的策略是不同的两个
- 储存 值:- 矩阵
- 维度灾难
- Atari Game: 210*150 像素,每个像素 256,可能状态有
Deep Q Network
- 价值函数近似:
- Q 网络训练目标损失:
- 以 为目标值
学习分类系统(LCS)
利用遗传算法实现强化学习
- 历史发展
- 1971 Holland 首次提出分类系统
- 1978 Holland 正式提出 Learning Classifer System
- 1988 Holland 定义 LCS 标准框架,过于复杂
- 1994 Wilson ZCS
- 1999 Wilson XCS
- Rule Representation:Use ternary alphabet to represent rule conditions
- Credit assignment
- Rule discovery