WEBVTT

00:00.980 --> 00:04.520
こんにちは､ 人工知能のコースにようこそ｡ 

00:04.520 --> 00:07.490
今日は､ この部分の攻略法について説明します｡ 

00:07.490 --> 00:11.120
キー・ラーニングの話ですが､ かなりの数のチュートリアルがあります｡ 

00:11.120 --> 00:20.180
そのため､ 今後のビデオの内容を理解するために､ さっと目を通しておくといいと思います｡

00:20.300 --> 00:21.260
それでは､ どうぞ｡ 

00:22.010 --> 00:22.490
わかりました｡ 

00:22.490 --> 00:24.770
このセクションで学ぶこと

00:25.040 --> 00:31.610
まず最初に､ 強化学習とは何か､ 強化学習の背後にある哲学とは何か､ 強化学習が実際にどのように見られるか､

00:31.610 --> 00:43.910
そして､ 私たちが実生活で観察していること､ 実際に私たち自身が行っていることにどのように関連しているかをお話しします｡

00:44.540 --> 00:56.720
強化学習､ 特にこの学習領域で起こっているすべてのこと､ あるいは多くのことを支える非常に基本的な概念である「ベルモント方程式」についてお話しします｡

00:56.720 --> 01:01.610
そして､ この講座のこのセクションと次のセクションでお話しするのは､

01:01.610 --> 01:11.540
それから､ 人工知能が私たちの環境の中をナビゲートするために考え出すプランと計画についてです｡

01:11.540 --> 01:14.530
そして､ それがどのように実現するかは､ これからです｡ 

01:14.540 --> 01:17.220
非常に迅速で､ しかしなかなか興味深いチュートリアルです｡ 

01:17.480 --> 01:21.080
続いて､ 市場の意思決定プロセスや新しいコンセプトについてお話します｡ 

01:21.080 --> 01:34.850
これから紹介するのは､ ベルモント方程式や強化学習全体､ 重要な学習概念に､ さらに洗練されたレイヤーをゆっくりと追加していく非常に新しい概念です｡

01:34.850 --> 01:40.070
そして､ このセクションでは､ ベルモント方程式を非常に単純化した形で紹介するという構成になっているのです｡

01:40.070 --> 01:48.470
そして､ チュートリアルの中で徐々に洗練されたレイヤーを追加していき､ 最終バージョンにたどり着きます｡

01:48.470 --> 01:55.010
色づけの目的地はそこですが､ すべての情報を処理し､ 定着させるための時間を確保するために､

01:55.010 --> 01:58.760
ゆっくりとそこに向かっていきます｡

01:58.760 --> 02:07.400
マルコフ決定過程は､ これまで議論してきたこと､ あるいはこれから議論することに加えて､ さらに洗練されたレイヤーを追加したものです｡

02:08.240 --> 02:10.700
次に､ ポリシーとプランについてです｡ 

02:11.090 --> 02:13.760
また面白いチュートリアルですね､ どれも面白い｡ 

02:13.760 --> 02:19.520
ポリシーとプランがどのように違うのか､ またその違いについて簡単に説明します｡ 

02:19.520 --> 02:24.470
そしてこれらは､ おそらく他の文献でも耳にしたり､ 読んだりすることがある用語です｡ 

02:24.470 --> 02:34.490
強化学習の追加情報を得るために掘り下げるのであれば､ 環境に生きたペナルティを加えるという話をします｡

02:34.490 --> 02:42.950
これは､ エージェントが活動する環境を複雑化する別の方法と言えます｡

02:43.040 --> 02:46.160
続いて､ キー・ラーニングの直感的な考え方についてお話します｡ 

02:46.160 --> 02:51.530
ですから､ そのチュートリアルまでは､ 状態の値の話をして､

02:51.530 --> 02:59.690
最後に行動の値やQ値の話に切り替えて､ 時間差を導入することになります｡

02:59.690 --> 03:11.090
このチュートリアルでは､ これまで学んできたことをすべてまとめて､ エージェントや人工知能がどのように学習するのかについて説明します｡

03:11.090 --> 03:16.160
繰り返しのプロセスの中で､ どのように値を更新していくのか｡ 

03:16.610 --> 03:21.470
そして最後に､ キー・ラーニングのビジュアル化を見ていきます｡ 

03:21.470 --> 03:26.960
そこで､ これまで学んだことをすべて生かし､ 目の前で実際に人工知能がキー・ラーニングを行い､

03:26.960 --> 03:37.880
これから説明するような直感的なことが実際に行われる様子を観察してみたいと思います｡

03:37.880 --> 03:44.240
そしてそれは､ このセクションで取り上げるその知識をさらに把握することにつながるのです｡ 

03:44.240 --> 03:47.360
これから始まるチュートリアルをとても楽しみにしていてください｡ 

03:47.360 --> 03:48.740
確かにそうですね｡ 

03:48.740 --> 03:51.800
そして､ 非常に興味深いスライドが登場します｡ 

03:51.800 --> 03:56.990
そして何より､ コンセプト自体がとてもとても面白いので､ かなり楽しんでいただけると思いますので､

03:56.990 --> 04:01.280
次回もよろしくお願いします｡

04:01.280 --> 04:02.570
それまではお楽しみに｡ 

04:02.570 --> 04:03.170
I.