青青草国产精品免费观看 I 毛片的网址 I 国产精品久久久久久久久鸭 I 久久久青青草 I 天堂国产在线 I 99在线免费视频 I 亚洲日本欧美日韩中文字幕 I 欧美xxxxxx片免费播放软件 I 亚洲国产精品日韩 I 国产精品亚洲一区二区三区久久 I 国产成人免费无码av在线播放 I 久久99精品久久久久久动态图 I 亚洲综合爱 I 欧美三级网 I 国产日韩精品一区二区三区在线 I 人妻少妇边接电话边娇喘 I 一点色成人网 I 国产舌乚八伦偷品w中 I 国产精品极品在线拍 I 色综合色 I 国产深夜视频在线观看 I 久黄色 I 中文字幕制服丝袜人妻动态图 I 四虎性 I 日韩一级免费大片 I 日韩乱码人妻无码中文字幕久久 I 日韩成人av网 I 日日夜夜操av I 成人免费视频看看 I 欧美日韩精品一区二区在线视频 I 久久精品国产日本波多野结衣 I 亚洲伦理中文字幕 I 美女网站一区 I 色xxx 在线播放 I 好湿好紧好爽免费视频

葉梓
  • 葉梓國內知名上市IT企業的資深技術專家,高級工程師
  • 擅長領域: 人工智能 大數據
  • 講師報價: 面議
  • 常駐城市:上海市
  • 學員評價: 暫無評價 發表評價
  • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
  • 在線咨詢

強化學習

主講老師:葉梓
發布時間:2021-05-21 14:54:00
課程詳情:

第一課 強化學習綜述

1.強化學習要解決的問題

2.強化學習的發展歷史

3.強化學習方法的分類

4.強化學習方法的發展趨勢

5.環境搭建實驗(Gym,TensorFlow等)

6.Gym環境的基本使用方法

7.TensorFlow基本使用方法


第二課 馬爾科夫決策過程

1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報、值函數、狀態行為值函數

3.貝爾曼方程

4.最優策略

5.Python介紹及簡單的代碼演示

案例:構建機器人找金幣和迷宮的環境


第三課 基于模型的動態規劃方法

1.動態規劃概念介紹

2.策略評估過程介紹

3.策略改進方法介紹

4.策略迭代和值迭代

5.值迭代與最優控制介紹

6.基于 python 的動態規劃方法演示

案例:實現基于模型的強化學習算法


第四課 蒙特卡羅方法

1.蒙特卡羅策略評估方法

2.蒙特卡羅策略改進方法

3.基于蒙特卡羅的強化學習方法

4.同策略和異策略強化學習

5.重要性采樣

6.基于 python 的蒙特卡羅強化學習方法演示

案例:利用蒙特卡羅方法實現機器人找金幣和迷宮


第五課 時序差分方法

1.DP,MC 和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法:Sarsa 方法

4.異策略TD方法:Q-learning 方法

5.N步預測及的前向和后向觀點

案例:Q-learning和Sarsa的實現


第六課 基于值函數逼近方法

1.值函數的參數化表示

2.值函數的估計過程

3.神經網絡基礎講解

4.DQN 方法介紹

5.DQN變種:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戲——flappy bird


第七課 策略梯度方法

1.策略梯度方法介紹

2.似然率策略梯度推導及重要性采樣視角推導

3.似然率策略梯度的直觀理解

4.常見的策略表示

5.常見的減小方差的方法:引入基函數法,修改估計值函數法

案例:利用gym和tensorflow實現小車倒立擺系統,乒乓球游戲


第八課 TRPO方法介紹及推導

1.替代回報函數的構建

2.單調的改進策略

3.TRPO 實用算法介紹

4.共軛梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法實現

案例:trpo算法和ppo算法實現


第九課 AC方法

1.隨機策略與確定性策略比較

2.隨機策略AC的方法

3.確定性策略梯度方法

4.DDPG 方法及實現

5.A3C方法講解

案例:基于 python 的 DDPG 方法實現


第十課 逆向強化學習

1.基于最大邊際的方法

2.學徒學習、MMP

3.結構化分類、神經逆向強化學習

4.基于概率模型的方法

5.最大熵、相對熵

6.深度逆向強化學習

案例:略


授課見證
推薦講師

馬成功

Office超級實戰派講師,國內IPO排版第一人

講師課酬: 面議

常駐城市:北京市

學員評價:

賈倩

注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

講師課酬: 面議

常駐城市:深圳市

學員評價:

鄭惠芳

人力資源專家

講師課酬: 面議

常駐城市:上海市

學員評價:

晏世樂

資深培訓師,職業演說家,專業咨詢顧問

講師課酬: 面議

常駐城市:深圳市

學員評價:

文小林

實戰人才培養應用專家

講師課酬: 面議

常駐城市:深圳市

學員評價: