close

22117063023030_146_m.jpeg

出版社:碁峰

出版日期:2021年4月27日

ISBN:9789865027193

書號:ACD017900

定價:1200元     售價:900元

有看部落格的才有此優惠喔
也可到露天購買https://www.ruten.com.tw/item/show?22118204059127

      yahoo購買https://tw.bid.yahoo.com/item/%E7%9B%8A%E5%A4%A7%E8%B3%87%E8%A8%8A-Reinforcement-Learning%E4%B8%AD%E6%96%87%E7%89%88-%E5%BC%B7%E5%8C%96%E5%AD%B8%E7%BF%92%E6%B7%B1%E5%BA%A6-101071885220
      
      蝦皮購買https://shopee.tw/product/120351604/4488096385/

      pchome 商店街購買https://seller.pcstore.com.tw/S140967598/C1439552003.htm
內容簡介

針對強化學習的關鍵概念和演算法,提供清晰而簡單的說明

什麼是強化學習
強化學習是學習該做什麼(如何將當前情形映射到動作上),以便最大化一個獎勵訊號數值。學習者不會被告知要採取哪些動作,而是必須透過嘗試來發現哪些動作會產生最大的回報。在最有趣和最具挑戰性的案例中,動作不僅會影響當下的獎勵,同時也會影響下一個情境,並且影響後續所有的獎勵。試誤搜尋和延遲獎勵這兩個特性,是強化學習中的兩個最重要的區別特徵。

本書精采內容包括:
.涵蓋所有強化學習演算法的核心概念
.解決有限馬可夫決策問題的三種基本方法
.近似最佳策略進行控制的方式
.介紹並分析資格痕跡演算法的機制
.強化學習與心理學和神經科學之間的關係
.強化學習的相關應用與未來強化學習研究中一些正在進行的前瞻技術

第二版前言
第一版前言
符號摘要

第1章 導論

Part I 表格式解決方法
第2章 多搖臂式拉霸機
第3章 有限馬可夫決策過程
第4章 動態規劃
第5章 蒙地卡羅方法
第6章 時序差分學習
第7章 n 步自助法
第8章 表格式方法的規劃和學習

Part II 近似解決方法
第9章 on-policy 預測的近似方法
第10章 on-policy 控制的近似方法
第11章 *off-policy 的近似方法
第12章 資格痕跡
第13章 策略梯度方法

Part III 深入觀察
第14章 心理學
第15章 神經科學
第16章 應用和案例研究
第17章 前瞻技術

參考資料與文獻

arrow
arrow
    全站熱搜

    ETAITBOOK08 發表在 痞客邦 留言(0) 人氣()