| タイトルコード |
1000101288911 |
| 書誌種別 |
図書 |
| 書名 |
意思決定のためのアルゴリズム 2 |
| 巻次(漢字) |
2 |
| 書名ヨミ |
イシ ケッテイ ノ タメ ノ アルゴリズム |
| 各巻書名 |
モデル・状態の不確実性とマルチエージェント |
| 言語区分 |
日本語 |
| 著者名 |
Mykel J.Kochenderfer/著
Tim A.Wheeler/著
Kyle H.Wray/著
林田 智弘/訳
西崎 一郎/訳
|
| 著者名ヨミ |
Mykel J Kochenderfer Tim A Wheeler Kyle H Wray ハヤシダ トモヒロ ニシザキ イチロウ |
| 著者名原綴 |
Kochenderfer Mykel J. Wheeler Tim A. Wray Kyle H. |
| 出版地 |
東京 |
| 出版者 |
朝倉書店
|
| 出版年月 |
2025.11 |
| 本体価格 |
¥7200 |
| ISBN |
978-4-254-12310-4 |
| ISBN |
4-254-12310-4 |
| 数量 |
10p,p218〜475 26p |
| 大きさ |
26cm |
| 分類記号 |
417
|
| 件名 |
意思決定
アルゴリズム
|
| 注記 |
原タイトル:Algorithms for decision making |
| 注記 |
文献:巻末p2〜15 |
| 内容紹介 |
意思決定に関連する様々な話題を取り上げ、基礎となる数理計画問題の定式化と、それを解くためのアルゴリズムを図や例を交えて紹介する。演習問題も掲載。2は、モデルの不確実性、状態の不確実性などを取り上げる。 |
| 目次タイトル |
第Ⅲ部 モデルの不確実性 |
|
15 探索と活用 |
|
15.1 バンディット問題 15.2 ベイズモデル推定 15.3 無指向性探索戦略 15.4 指向性探索戦略 15.5 最適探索戦略 15.6 複数の状態に対する探索 15.7 要約 15.8 演習 |
|
16 モデルベース法 |
|
16.1 最尤推定法 16.2 更新手順 16.3 探索 16.4 ベイズ法 16.5 ベイズ適応型マルコフ決定過程 16.6 事後サンプリング 16.7 要約 16.8 演習 |
|
17 モデルフリー法 |
|
17.1 平均の増分推定 17.2 Q学習 17.3 Sarsa 17.4 適格トレース 17.5 報酬設計 17.6 行動価値関数近似 17.7 経験再生 17.8 要約 17.9 演習 |
|
18 模倣学習 |
|
18.1 行動クローニング 18.2 データ集合集約 18.3 確率的混合反復学習 18.4 最大マージン逆強化学習 18.5 エントロピー最大化逆強化学習 18.6 生成的敵対的模倣学習 18.7 要約 18.8 演習 |
|
第Ⅳ部 状態の不確実性 |
|
19 信念 |
|
19.1 信念の初期化 19.2 離散状態フィルタ 19.3 カルマンフィルタ 19.4 拡張カルマンフィルタ 19.5 アンセンテッドカルマンフィルタ 19.6 粒子フィルタ 19.7 粒子注入 19.8 要約 19.9 演習 |
|
20 正確な信念状態プランニング |
|
20.1 信念状態マルコフ決定過程 20.2 条件付きプラン 20.3 アルファベクトル 20.4 枝刈り 20.5 価値反復 20.6 線形方策 20.7 要約 20.8 演習 |
|
21 オフライン信念状態プランニング |
|
21.1 完全観測価値近似 21.2 高速情報限度 21.3 高速下限 21.4 点ベース価値反復 21.5 ランダム化点ベース価値反復 21.6 のこぎり歯上限 21.7 点選択 21.8 のこぎり歯ヒューリスティック探索 21.9 三角形化価値関数 21.10 要約 21.11 演習 |
|
22 オンライン信念状態計画 |
|
22.1 ロールアウトに基づく先読み 22.2 前方探索 22.3 分枝限定法 22.4 スパースサンプリング 22.5 モンテカルロツリー探索 22.6 決定化スパースツリー探索 22.7 ギャップヒューリスティック探索 22.8 要約 22.9 演習 |
|
23 コントローラ抽象化 |
|
23.1 コントローラ 23.2 方策反復 23.3 非線形計画 23.4 勾配上昇 23.5 要約 23.6 演習 |
|
第Ⅴ部 マルチエージェントシステム |
|
24 マルチエージェント推論 |
|
24.1 単純ゲーム 24.2 応答モデル 24.3 支配戦略均衡 24.4 ナッシュ均衡 24.5 関連均衡 24.6 繰返し最良応答 24.7 階層的ソフトマックス 24.8 架空プレイ 24.9 勾配上昇 24.10 要約 24.11 演習 |
|
25 逐次問題 |
|
25.1 マルコフゲーム 25.2 応答モデル 25.3 ナッシュ均衡 25.4 架空プレイ 25.5 勾配上昇 25.6 ナッシュQ学習 25.7 要約 25.8 演習 |
|
26 状態の不確実性 |
|
26.1 部分観測マルコフゲーム 26.2 方策評価 26.3 ナッシュ均衡 26.4 動的計画法 26.5 要約 26.6 演習 |
|
27 協調的エージェント |
|
27.1 分権的部分観測マルコフ決定過程 27.2 サブクラス 27.3 動的計画法 27.4 反復最良応答 27.5 発見的探索 27.6 非線形計画法 27.7 要約 27.8 演習 |
|
付録 |
|
A 数学的概念 |
|
A.1 測度空間 A.2 確率空間 A.3 距離空間 A.4 ノルム付きベクトル空間 A.5 正定性 A.6 凸性 A.7 情報量 A.8 エントロピー A.9 交差エントロピー A.10 相対エントロピー A.11 勾配上昇 A.12 テイラー展開 A.13 モンテカルロ推定 A.14 重点サンプリング A.15 収縮写像 A.16 グラフ |
|
B 確率分布 |
|
C 計算量 |
|
C.1 漸近表記 C.2 時間計算量に基づくクラス C.3 空間計算量に基づくクラス C.4 決定可能性 |
|
D ニューラル表現 |
|
D.1 ニューラルネットワーク D.2 フィードフォワードネットワーク D.3 パラメータ正則化 D.4 畳み込みニューラルネットワーク D.5 リカレントネットワーク D.6 オートエンコーダネットワーク D.7 対立的ネットワーク |
|
E 探索アルゴリズム |
|
E.1 探索問題 E.2 探索グラフ E.3 前方探索 E.4 分枝限定法 E.5 動的計画法 E.6 ヒューリスティック探索 |
|
F 問題 |
|
F.1 六角世界 F.2 2048 F.3 カート・ポール F.4 マウンテンカー F.5 単純レギュレータ F.6 航空機の衝突回避 F.7 泣いている赤ちゃん F.8 機械の交換 F.9 キャッチボール F.10 囚人のジレンマ F.11 じゃんけん F.12 旅行者のジレンマ F.13 捕食者と被食者の六角世界 F.14 複数世話人の泣いている赤ちゃん F.15 協調的な捕食者と被食者の六角世界 |
|
G Julia |
|
G.1 型 G.2 関数 G.3 制御フロー G.4 パッケージ G.5 便利な関数 |