×
>>
视频信息:不能播放?点击修复
  • 第1集
  • 1 什么是强化学习?
  • 第3集
  • 2 强化学习方法汇总
  • 第5集
  • 1 why?
  • 第7集
  • 2 要求准备
  • 第9集
  • 3 什么是 Q Learning
  • 第11集
  • 3 简单例子
  • 第13集
  • 4 Q Learning 算法更新
  • 第15集
  • 5 Q Learning 思维决策
  • 第17集
  • 4 什么是 Sarsa
  • 第19集
  • 6 Sarsa 算法更新
  • 第21集
  • 7 Sarsa 思维决策
  • 第23集
  • 7 什么是 Policy Gradients
  • 第25集
  • 5 什么是 Sarsa(lambda)
  • 第27集
  • 8 Sarsa(lambda)
  • 第29集
  • 8 什么是 Actor Critic
  • 第31集
  • 6 什么是 DQN
  • 第33集
  • 8 什么是 Deep Deterministic Policy Gradient (DDPG)
  • 第35集
  • 9 什么是 A3C (Asynchronous Advantage Actor-Critic)
  • 第37集
  • 9 DQN 算法更新
  • 第39集
  • 10 DQN 神经网络
  • 第41集
  • 11 DQN 思维决策
  • 第43集
  • 12 OpenAI Gym
  • 第45集
  • 12.1 Double DQN
  • 第47集
  • 12.2 DQN with Prioritised Replay
  • 第49集
  • 12.3 Dueling DQN
  • 第51集
  • 13 Policy Gradients 算法更新
  • 第53集
  • 14 Policy Gradients 思维决策
  • 第55集
  • 15 Actor Critic 演员评论家
  • 第57集
  • 16 DDPG
  • 第59集
  • 17 A3C
  • 第61集
  • 18 PPO/DPPO Proximal Policy Optimization
  • 猜你喜欢
  • 视频介绍
  • 分集列表
  • 视频下载