検索結果書誌詳細

  • 書誌の詳細です。 現在、予約は 0 件です。
  • 「資料情報」から書誌を予約カートに入れるページに移動します。

蔵書情報

この資料の蔵書に関する統計情報です。現在の所蔵数 在庫数 予約数などを確認できます。

所蔵数 1 在庫数 1 予約数 0

書誌情報サマリ

書名

強化学習 

著者名 Richard S.Sutton/共著
著者名ヨミ Richard S Sutton
出版者 森北出版
出版年月 2022.10


この資料に対する操作

カートに入れる を押すと この資料を 予約する候補として予約カートに追加します。

いますぐ予約する を押すと 認証後この資料をすぐに予約します。

この資料に対する操作

電子書籍を読むを押すと 電子図書館に移動しこの資料の電子書籍を読むことができます。


登録するリストログインメモ


資料情報

各蔵書資料に関する詳細情報です。

No. 所蔵館 配架場所 請求記号 資料番号 資料種別 状態 個人貸出 在庫
1 中央図書館一般開架00713/14/220106800695一般在庫 

書誌詳細

この資料の書誌詳細情報です。

タイトルコード 1000101025295
書誌種別 図書
書名 強化学習 
書名ヨミ キョウカ ガクシュウ
版表示 第2版
言語区分 日本語
著者名 Richard S.Sutton/共著   Andrew G.Barto/共著   奥村 エルネスト純/監訳   鈴木 雅大/監訳   松尾 豊/監訳   三上 貞芳/監訳   山川 宏/監訳   今井 翔太/共訳   川尻 亮真/共訳   菊池 悠太/共訳   鮫島 和行/共訳   陣内 佑/共訳   高橋 将文/共訳   谷口 尚平/共訳   藤田 康博/共訳   前田 新一/共訳   松嶋 達也/共訳
著者名ヨミ Richard S Sutton Andrew G Barto オクムラ エルネスト ジュン スズキ マサヒロ マツオ ユタカ ミカミ サダヨシ ヤマカワ ヒロシ イマイ ショウタ カワジリ リョウマ キクチ ユウタ サメジマ カズユキ ジンナイ ユウ タカハシ マサフミ タニグチ ショウヘイ フジタ ヤスヒロ マエダ シンイチ マツシマ タツヤ
著者名原綴 Sutton Richard S. Barto Andrew G.
出版地 東京
出版者 森北出版
出版年月 2022.10
本体価格 ¥6000
ISBN 978-4-627-82662-5
ISBN 4-627-82662-5
数量 18,469p
大きさ 25cm
分類記号 007.13
件名 人工知能   アルゴリズム
注記 原タイトル:Reinforcement learning 原著第2版の翻訳
注記 文献:p427〜461
内容紹介 強化学習の主要な考え方やアルゴリズムについて明確かつ簡潔な形で解説した入門書。発展的手法、心理学・神経科学との関係、AlphaGoなどの新しい話題を盛り込んだ第2版。
目次タイトル 第1章 序
1.1 強化学習 1.2 強化学習の例 1.3 強化学習の構成要素 1.4 強化学習の制約と範囲 1.5 拡張された例:三目並べ(tic‐tac‐toe) 1.6 ここまでのまとめ 1.7 強化学習の成り立ち
第Ⅰ部 テーブル形式の解法
第2章 多腕バンディット問題
2.1 k本腕バンディット問題 2.2 行動価値手法 2.3 10本腕バンディットによる実験 2.4 逐次的実装 2.5 非定常問題を調べる 2.6 楽観的初期値 2.7 上限信頼区間行動選択 2.8 勾配バンディットアルゴリズム 2.9 連想探索(文脈付きバンディット) 2.10 まとめ
第3章 有限マルコフ決定過程
3.1 エージェントと環境の境界 3.2 目標と報酬 3.3 収益とエピソード 3.4 エピソード的タスクと連続タスクの統一的記法 3.5 方策と価値関数 3.6 最適方策と最適価値関数 3.7 最適性と近似 3.8 まとめ
第4章 動的計画法
4.1 方策評価(予測) 4.2 方策改善 4.3 方策反復 4.4 価値反復 4.5 非同期動的計画法 4.6 一般化方策反復 4.7 動的計画法の効率 4.8 まとめ
第5章 モンテカルロ法
5.1 モンテカルロ予測 5.2 行動価値のモンテカルロ推定 5.3 モンテカルロ制御 5.4 開始点探索を使わないモンテカルロ制御 5.5 重点サンプリングによる方策オフ型予測 5.6 逐次的実装 5.7 方策オフ型モンテカルロ制御 5.8 割引を考慮した重点サンプリング 5.9 意思決定ごとの重点サンプリング 5.10 まとめ
第6章 TD学習
6.1 TD予測 6.2 TD予測の利点 6.3 TD(0)法の最適性 6.4 Sarsa法:方策オン型TD制御 6.5 Q学習:方策オフ型TD制御 6.6 期待Sarsa法 6.7 最大化バイアスと二重学習 6.8 ゲーム,事後状態,その他の特別な場合 6.9 まとめ
第7章 nステップ・ブートストラップ法
7.1 nステップTD予測 7.2 nステップSarsa法 7.3 nステップ方策オフ型学習 7.4 制御変量法による意思決定ごとの手法 7.5 重点サンプリングなしの方策オフ型学習;nステップ・ツリー・バックアップ法 7.6 統一的なアルゴリズム:nステップQ(σ)法 7.7 まとめ
第8章 テーブル形式手法におけるプランニングと学習
8.1 モデルとプランニング 8.2 Dyna:プランニング,行動,そして学習の統合 8.3 モデルに誤りがある場合 8.4 優先掃き出し法 8.5 期待更新とサンプル更新 8.6 遷移軌道サンプリング 8.7 リアルタイム動的計画法 8.8 意思決定時のプランニング 8.9 ヒューリスティック探索 8.10 ロールアウトアルゴリズム 8.11 モンテカルロ木探索 8.12 本章のまとめ 8.13 第Ⅰ部のいくつかの軸によるまとめ
第Ⅱ部 近似による解法
第9章 近似を用いた方策オン型予測
9.1 価値関数の近似 9.2 予測の目的関数(VE) 9.3 確率的勾配法と擬似勾配法 9.4 線形手法 9.5 線形手法のための特徴量設計 9.6 ステップサイズパラメータの手動による選択 9.7 非線形関数による近似:人工ニューラルネットワーク 9.8 最小二乗TD法 9.9 メモリベースの関数近似法 9.10 カーネル法ベースの関数近似法 9.11 方策オン型学習を掘り下げる:興味と強調 9.12 まとめ
第10章 関数近似を用いた方策オン型制御
10.1 エピソード的擬似勾配制御 10.2 擬似勾配nステップSarsa法 10.3 平均報酬:連続タスクのための新たな問題設定 10.4 割引設定を批判する 10.5 差分擬似勾配nステップSarsa法 10.6 まとめ
第11章 近似を用いた方策オフ型手法
11.1 擬似勾配法 11.2 方策オフ型の発散の例 11.3 死の三人衆 11.4 線形状態価値の幾何 11.5 ベルマン誤差の勾配降下 11.6 ベルマン誤差の学習不可能性 11.7 勾配TD法 11.8 強調TD法 11.9 分散の低減 11.10 まとめ
第12章 適格度トレース
12.1 λ収益 12.2 TD(λ)法 12.3 nステップ打ち切りλ収益法 12.4 繰り返し更新:オンラインλ収益アルゴリズム 12.5 真のオンラインTD(λ)法 12.6 モンテカルロ学習におけるダッチトレース 12.7 Sarsa(λ)法 12.8 可変のλとγ 12.9 制御変量法を用いた方策オフ型適格度トレース 12.10 WatkinsのQ(λ)法からツリー・バックアップ(λ)法へ 12.11 トレースを用いる安定した方策オフ型手法 12.12 実装上の問題 12.13 まとめ
第13章 方策勾配法
13.1 方策近似とその利点 13.2 方策勾配定理 13.3 REINFORCEアルゴリズム:モンテカルロ方策勾配 13.4 ベースライン付きREINFORCEアルゴリズム 13.5 アクター・クリティック法 13.6 連続問題に対する方策勾配法 13.7 連続行動に対する方策のパラメータ化 13.8 まとめ
第Ⅲ部 さらに深く
第14章 心理学
14.1 予測と制御 14.2 古典的条件づけ 14.3 道具的条件づけ 14.4 遅延強化 14.5 認知地図 14.6 習慣行動と目標指向行動 14.7 まとめ
第15章 神経科学
15.1 神経科学の基礎 15.2 報酬信号,強化信号,価値,予測誤差 15.3 細酬予測誤差仮説 15.4 ドーパミン 15.5 報酬予測誤差仮説を支持する実験的事実 15.6 TD誤差とドーパミンとの対応関係 15.7 ニューラル・アクター・クリティック 15.8 アクターとクリティックの学習則 15.9 ヘドニスティックニューロン 15.10 集団強化学習 15.11 脳におけるモデルベース法 15.12 依存症 15.13 まとめ
第16章 応用と事例紹介
16.1 TD-Gammon 16.2 Samuelのチェッカープレイヤー 16.3 Watsonによるデイリーダブルの賭け戦略 16.4 メモリ制御の最適化 16.5 人間レベルのビデオゲームプレイ 16.6 囲碁の修得 16.7 Webサービスのパーソナライズ 16.8 サーマルソアリング
第17章 強化学習のこれから
17.1 汎用価値関数と補助タスク 17.2 オプションによる時間方向の抽象化 17.3 観測と状態 17.4 報酬信号の設計 17.5 残された課題 17.6 報酬予測誤差仮説の実験的支持



内容細目

関連資料

この資料に関連する資料を 同じ著者 出版年 分類 件名 受賞などの切り口でご紹介します。

2022
2022
火力発電 変電所
前のページへ

本文はここまでです。


ページの終わりです。