WEBVTT

00:00.950 --> 00:03.650
大家好, 欢迎回到人工智能课程｡ 

00:03.650 --> 00:07.640
今天我们要讲的是马尔可夫决策过程｡ 

00:08.570 --> 00:10.880
让我们看看今天都有什么｡ 

00:11.210 --> 00:13.970
上次我们讲到了地图的概念｡ 

00:13.970 --> 00:20.930
因为我们已经根据贝尔蒙特方程计算了这些值, 所以我们可以为我们的代理人推导出这个迷宫的地图｡

00:20.930 --> 00:27.080
基本上, 这意味着变革推动者从哪里开始, 所以让我们假设它从那里开始｡ 

00:27.260 --> 00:30.800
它确切地知道为了到达终点线该采取哪些步骤｡ 

00:30.800 --> 00:32.210
所以它只是上升｡ 

00:32.210 --> 00:33.800
上右右｡ 

00:33.800 --> 00:34.750
完成了｡ 

00:34.760 --> 00:39.710
所以这里的问题是, 它真的那么简单吗？

00:39.710 --> 00:44.630
强化学习真的那么无聊吗？

00:44.630 --> 00:47.390
只要你有了地图, 就可以了.

00:47.390 --> 00:49.280
你要做的就是完成任务｡ 

00:49.640 --> 00:50.660
你只要跟着地图走就行了｡ 

00:50.810 --> 00:55.400
事实上, 事情并没有那么简单｡ 

00:55.400 --> 01:02.360
这是一件好事, 因为它让这门课对我们来说更有趣, 我们可以解决更复杂的问题｡

01:02.360 --> 01:05.390
这就是马尔可夫过程的作用｡ 

01:05.390 --> 01:07.640
但首先, 我们要谈两件事｡ 

01:07.640 --> 01:11.300
我们将讨论确定性搜索和非确定性搜索｡ 

01:11.390 --> 01:14.330
那么, 让我们来谈谈确定性搜索的概念｡ 

01:14.510 --> 01:16.430
这是我们在迷宫的特工｡ 

01:16.430 --> 01:26.660
而确定性搜索意味着如果代理决定向上, 那么它向上的概率是100%｡

01:26.780 --> 01:28.610
这就是将要发生的事情｡ 

01:28.610 --> 01:29.630
别无选择｡ 

01:29.630 --> 01:33.590
一旦, 一旦它说向上或点击向上箭头, 它就会向上｡ 

01:33.590 --> 01:34.640
别无选择｡ 

01:35.060 --> 01:41.450
另一方面, 非确定性搜索是当我们的代理说它想去的时候｡ 

01:41.930 --> 01:44.210
它们实际上是两个选项｡ 

01:44.210 --> 01:48.500
例如, 可能有三个选项, 我们将看一个有三个选项的示例,

01:48.500 --> 01:50.180
但它不一定局限于三个｡

01:50.180 --> 01:54.200
它可以是四个或它可以是不同的取决于取决于问题

01:54.200 --> 02:00.530
随机性可能不同, 但在我们的例子中,

02:00.530 --> 02:09.230
有三个选项, 有80%的概率他会往上走, 但有10%的概率他想往上走, 他会往左走, 因为环境就是这样.

02:09.230 --> 02:10.820
这就是他生活的世界｡ 

02:11.180 --> 02:14.690
还有10%的机会他会向右走｡ 

02:14.690 --> 02:17.090
在这种情况下, 他会掉进火坑｡ 

02:17.660 --> 02:20.600
所以这就是一切的运作方式｡ 

02:20.660 --> 02:24.830
这是一个非确定性搜索的例子, 一个随机过程｡ 

02:24.830 --> 02:33.370
这一点的意义在于, 建立一个更现实的模型, 来描述在现实世界中,

02:33.380 --> 02:36.290
在现实世界中可能发生的事情｡

02:36.290 --> 02:41.270
因为很少有这样的情况, 当你做一件事, 它发生的方式完全一样｡

02:41.270 --> 02:46.430
即使你从游戏的角度来考虑, 假设你有一个经纪人在玩吃豆人｡ 

02:46.430 --> 02:48.410
嗯, 也不总是｡ 

02:48.410 --> 02:53.000
如果他站在正方形里, 他往上走,

02:53.000 --> 03:01.340
每次都得到同样的结果, 他确实会往上走, 但有可能在一种情况下他不会被鬼吃掉, 而在另一种情况下他会被鬼吃掉.

03:01.340 --> 03:07.280
正如你所看到的, 它有一些随机性, 因为它取决于鬼魂是如何移动的, 它们并不总是以相同的方式移动｡

03:07.280 --> 03:09.260
它们并不总是从相同的位置开始｡ 

03:09.260 --> 03:11.060
所以这是非常合乎逻辑的｡ 

03:11.060 --> 03:14.270
随机性是很公平的｡ 

03:14.270 --> 03:19.760
有些东西是不受主体控制的,

03:19.760 --> 03:28.070
那就是这只是一种表达方式, 以便我们学习如何处理它, 如何影响贝尔曼方程, 如何影响整个强化学习过程.

03:28.970 --> 03:33.680
但与此同时, 随机性当然不限于如果你往上走, 有10%的机会你会往右走,

03:33.680 --> 03:35.510
也有10%的机会你会往左走｡

03:35.510 --> 03:38.300
或者如果你往下走, 有10%的机会你向左或向右走｡ 

03:38.300 --> 03:40.490
或者如果你向右走, 有10%的机会向上或向下｡ 

03:40.500 --> 03:42.890
这并不局限于你最终会去哪里｡ 

03:42.890 --> 03:44.420
有时候你可能会有问题｡ 

03:44.420 --> 03:47.180
这就是说, 有时候概率可能不同.

03:47.180 --> 03:51.050
有时候, 随机性可能会归结为其他东西｡ 

03:51.050 --> 03:55.610
它可能会像吃豆人的例子一样被简化, 鬼魂吃你或不吃你｡ 

03:55.610 --> 03:58.760
或者可以归结为不同的东西｡ 

03:58.760 --> 04:05.510
比如说, 如果一个特工在玩厄运游戏, 那么在某种情况下, 在另一种游戏中,

04:05.510 --> 04:08.900
会有一个怪物向他开枪.

04:08.990 --> 04:14.840
就像有一个概率它会被击中, 而它不会被击中, 等等｡

04:14.840 --> 04:19.460
所以有些东西是不受代理人控制的, 有些东西是它无法预测的｡ 

04:19.460 --> 04:22.790
这就是我们在非确定性搜索中所建模的｡ 

04:22.790 --> 04:32.720
这就是我们直接讨论两个新概念的地方, 马尔可夫过程和/或马尔可夫过程和标记马尔可夫决策过程｡

04:32.720 --> 04:38.600
让我们看一下这些内容, 大家知道我不喜欢在幻灯片上写定义和大量文字, 但在这种情况下,

04:38.600 --> 04:42.230
我们有必要仔细阅读这些内容｡

04:42.230 --> 04:43.250
让我们来看看｡ 

04:43.280 --> 04:46.160
随机过程具有性质的标志｡ 

04:46.160 --> 04:51.710
如果过程的未来状态的条件概率分布同时取决于过去和现在的状态,

04:51.710 --> 04:58.040
则它只取决于现在的状态, 而不取决于它之前的事件序列｡

04:58.070 --> 05:00.320
此属性的过程称为标记过程｡ 

05:00.820 --> 05:07.840
非常复杂的定义, 它有点像甚至一点点不矛盾, 但它感觉像它矛盾自己｡

05:07.840 --> 05:11.950
所以这里它说条件既取决于我的过去, 又只取决于我的现在状态,

05:11.950 --> 05:14.250
但同时它又只取决于我的现在状态｡

05:14.260 --> 05:17.530
所以别太纠结于此｡ 

05:17.590 --> 05:19.270
我将简单地把它分解一下｡ 

05:19.270 --> 05:22.930
所以财产的标志就是你未来的状态｡ 

05:22.930 --> 05:26.920
所以不只是你的选择, 而是整个事情, 你的选择和环境｡ 

05:27.130 --> 05:33.850
它只会喜欢你在那个环境中采取的行动的结果只会取决于你现在所处的位置｡

05:33.850 --> 05:35.650
这将不取决于你是如何到达那里的｡ 

05:35.860 --> 05:36.460
就是这样｡ 

05:36.460 --> 05:40.510
这是一个产权市场, 一个具有产权的过程叫做市场过程.

05:40.600 --> 05:47.950
举个例子, 如果你的经纪人在这里, 如果他去了, 如果他决定去, 他可能会去｡

05:47.950 --> 05:52.810
在我们的例子中, 在我们的非确定性搜索例子中, 他实际上可能会左右移动｡ 

05:52.810 --> 05:53.560
好吧, 我会的

05:53.560 --> 05:57.490
这是因为我们的环境中有随机理论｡ 

05:57.490 --> 05:59.560
在我们的环境中有随机性｡ 

05:59.560 --> 06:01.630
所以这三种情况中的任何一种都可能发生｡ 

06:01.630 --> 06:07.030
但这里的关键是, 这是一个过程的标志, 因为我们不关心他是如何来到这里的｡ 

06:07.030 --> 06:10.060
他可能是从上面来的, 最后到了这里, 他也可能是从左边来的｡ 

06:10.060 --> 06:12.190
他可能是从下面来的, 最后到了这里｡ 

06:12.190 --> 06:16.420
他可能在这里转了10万次才来到这里｡ 

06:16.420 --> 06:18.670
之前发生了什么并不重要｡ 

06:18.670 --> 06:22.120
唯一重要的是他现在在哪个州｡ 

06:22.210 --> 06:31.960
所以向左, 向右, 向上的概率, 如果他现在处于这种状态, 它们总是一样的.

06:32.530 --> 06:37.480
所以这基本上就是说在我们来到这里之前发生了什么并不重要｡ 

06:37.570 --> 06:39.040
这就是你现在的状态｡ 

06:39.040 --> 06:42.250
别忘了, 这种状态不仅仅意味着他站在哪里｡ 

06:42.250 --> 06:46.570
状态是指环境中主体整体的状态｡ 

06:46.570 --> 06:49.900
那么是右边的怪物还是左边的怪物？

06:49.900 --> 06:52.660
或者是鬼魂从底部的顶部传来？

06:52.660 --> 06:55.480
不管你现在处于什么状态, 你是怎么到那里的都不重要｡ 

06:55.480 --> 06:58.720
不管你是怎么变成那个样子的｡ 

06:58.720 --> 07:03.730
现在, 未来会发生什么, 只取决于你现在所处的状态, 加上你届时将采取的行动,

07:03.730 --> 07:07.030
当然, 再加上覆盖在上面的随机性｡

07:07.210 --> 07:14.650
这是过程的标志, 也是决策过程的标志, 或者MDP, 或者马尔可夫决策过程,

07:14.650 --> 07:20.320
提供了一个数学框架, 用于在结果部分随机, 部分受决策者控制的情况下,

07:20.320 --> 07:23.290
对决策进行建模｡

07:23.290 --> 07:29.470
所以重要的是要理解马尔可夫决策过程过程和马尔可夫过程是完全不同的概念, 对于马尔可夫过程来说,

07:29.470 --> 07:34.210
它们有点像一个数学框架｡

07:34.210 --> 07:38.770
但同时, 我认为理解马尔可夫过程是很重要的,

07:38.770 --> 07:43.060
因为我认为它仍然有助于理解决策过程的一个标志｡

07:43.060 --> 07:48.730
决策过程的一个标志就是, 这正是我们一直在讨论的, 到目前为止, 代理人生活在这个环境中,

07:48.730 --> 07:52.060
在这个环境中, 它有控制权｡

07:52.060 --> 07:57.400
比如, 记住, 以前它完全控制着正在发生的事情, 但是现在它的控制力有点小｡

07:57.400 --> 08:00.160
它可以决定上升, 但它实际上知道｡ 

08:00.160 --> 08:03.490
好吧, 如果我往上走, 有80%的机会我会往上走｡ 

08:03.490 --> 08:05.950
左边有10%的机会, 右边也有10%｡ 

08:05.950 --> 08:08.860
因此, 并非所有事情都完全在它的控制之下｡ 

08:08.860 --> 08:10.660
在这种环境中存在一些随机性｡ 

08:10.660 --> 08:12.970
这正是决策过程的标志｡ 

08:12.970 --> 08:19.330
马尔可夫决策过程是一个框架, 代理将使用该框架来理解在这种环境中应该做什么｡

08:19.330 --> 08:23.740
所以我们有一个随机的环境, 现在代理人必须做出选择,

08:23.740 --> 08:28.480
例如, 应该向上还是向下, 向左还是向右, 必须做出决定｡

08:28.480 --> 08:29.680
它不知道该怎么办｡ 

08:29.830 --> 08:36.130
为了做出这个决定, 我们将应用一个框架, 我们将使用马尔可夫决策过程, 以便做出这个决定,

08:36.130 --> 08:40.690
将发生什么, 将走向哪里｡

08:40.810 --> 08:47.530
所以基本上, 这个环境提出了这个问题, 它被称为决策过程的标志｡ 

08:47.530 --> 08:49.900
因此, 这是代理使用的框架｡ 

08:49.900 --> 08:55.450
同时, 环境是指Agent运行在一个马尔可夫决策过程环境中｡

08:56.110 --> 08:57.910
所以基本上我们有两个概念｡ 

08:57.910 --> 09:06.820
马尔可夫过程是这个环境的设计方式, 它是从你现在所在的地方发生的, 而不依赖于过去｡

09:06.820 --> 09:11.080
同时, 我们也得到了决策过程的标记,

09:11.080 --> 09:13.510
这是代理人用来解决这个环境的框架｡

09:13.720 --> 09:18.760
好消息是决策过程的标志或者我们所说的框架实际上只是对我们的贝尔曼方程的一个补充,

09:18.760 --> 09:24.670
就是贝尔曼方程, 只是更复杂一点｡

09:24.670 --> 09:26.500
让我们来看看｡ 

09:26.890 --> 09:28.180
这是我们的贝尔曼方程｡ 

09:28.180 --> 09:30.970
到目前为止, 这是所有可能操作的最大值｡ 

09:30.970 --> 09:35.620
因此, 处于一种状态的价值是你能从这种状态中采取的所有可能行动的最大值｡

09:36.100 --> 09:41.500
最大值是从你在那个状态下采取行动将获得的奖励中取出来的, 加上一个折扣因子乘以下一个状态的价值,

09:41.500 --> 09:45.160
也就是质数｡

09:45.160 --> 09:50.380
这就是我们目前所得到的结果, 因为在整个过程中, 我们有一些随机性｡ 

09:50.380 --> 09:56.050
这部分会改变, 因为我们不知道哪一个状态会结束, 我们也不知道质数是什么｡

09:56.050 --> 09:59.170
如果我们上升, 它会上升吗？还是我们会被留下？

09:59.170 --> 09:59.770
我们会是对的吗？

09:59.830 --> 10:04.660
所以我们实际上必须把它和下一个状态的期望值放在一起｡ 

10:04.660 --> 10:06.340
所以我们要把它换掉｡ 

10:06.340 --> 10:08.350
所以有三种可能的状态｡ 

10:08.530 --> 10:12.340
所以我们要用一个值来代替它｡ 

10:12.670 --> 10:19.450
这个状态有一个质数, 这个状态有一个质数, 二个质数,

10:19.450 --> 10:22.180
这个状态有一个三质数的V.

10:22.420 --> 10:28.690
所以现在我们要把我们实际打算进入的状态乘以80%,

10:28.690 --> 10:35.260
因为这是我们进入那个状态的概率, 加上进入这个状态的概率10%加上每个进入状态的账单｡

10:35.260 --> 10:37.960
所以这只是我们的期望值｡ 

10:37.960 --> 10:45.220
所以如果从统计学来看, 如果我们取进入状态的期望值, 我们就会进入｡ 

10:45.790 --> 10:51.370
就像平均值是我们得到的平均值, 然后我们把它换到这里｡

10:51.790 --> 10:52.870
然后我们得到这个方程｡ 

10:52.870 --> 10:55.570
现在它跳得非常快, 只是因为这个方程更大｡ 

10:55.570 --> 10:57.850
但如果你仔细看, 你会发现这是完全一样的｡ 

10:57.850 --> 11:04.570
这里有Mac, 这里有好的Mac, 然后是S和A的R, SE的R, 这里是Gamma,

11:04.570 --> 11:06.220
这里是Gamma｡

11:06.220 --> 11:08.530
最后是V｡ 

11:08.530 --> 11:11.590
所以你知道这是一个确定性搜索｡ 

11:11.590 --> 11:13.360
你知道你会进入哪个州｡ 

11:13.390 --> 11:15.010
现在你不知道你会进入哪个州｡ 

11:15.010 --> 11:20.530
所以不是取V, 而是取你将要进入的状态或未来状态的期望值, 或者简单地说,

11:20.530 --> 11:25.790
你只是取你将要进入的状态的平均值

11:25.810 --> 11:32.830
所以如果是一个在一个在一个喜欢的是33%的机会, 它会是这样的, 加上这个加上这个除以3基本上｡

11:32.830 --> 11:37.060
但在这种情况下, 它并不完全像平均数｡ 

11:37.060 --> 11:40.120
这是一个加权平均值, 因为你的概率在这里｡ 

11:40.120 --> 11:46.000
这里你得到了当你处于这个状态时的概率, 你把进入状态的这个动作作为质数乘以s质数的值,

11:46.000 --> 11:51.760
然后把所有你可能进入的质数相加｡

11:51.760 --> 11:53.590
所以我们这里有三个｡ 

11:53.590 --> 11:54.640
一, 二, 三, 一, 二, 三

11:54.640 --> 11:56.470
把它们加起来乘以概率｡ 

11:56.470 --> 11:57.130
把它们加起来｡ 

11:57.130 --> 11:57.790
我也是

11:57.790 --> 11:58.750
一, 二, 三, 一, 二, 三

11:58.750 --> 12:01.480
把它们乘以概率, 然后把它们加起来｡ 

12:01.840 --> 12:04.930
这就是你的新贝尔蒙特方程｡ 

12:05.020 --> 12:06.220
恭喜你啊

12:06.220 --> 12:13.510
这就是我们接下来要研究的, 也是马尔可夫决策过程中使用的框架｡

12:13.510 --> 12:20.710
这就是解决这个问题的框架, 代理用来解决整个随机的, 非确定性的搜索问题,

12:20.710 --> 12:25.300
其中有他们无法控制的随机事件正在发生｡

12:25.300 --> 12:26.830
所以它要复杂得多｡ 

12:26.830 --> 12:32.680
但正如你所看到的, 因为我们已经慢慢积累到现在我们已经知道了, 我们阅读这个, 我们读这个,

12:32.680 --> 12:36.670
我们知道这个, 我们知道这个｡

12:36.670 --> 12:45.520
所以我们所做的就是把这部分介绍到这里, 因为在你的行为或行为的后果中涉及到概率｡

12:46.030 --> 12:48.550
而在确定论上, 它们是基于一定的概率｡ 

12:49.060 --> 12:50.470
所以我们开始了｡ 

12:50.470 --> 12:57.820
这就是市场决策过程的运作方式和背后的基本方程｡ 

12:58.240 --> 13:04.600
再一次, 它是更接近真实的世界的问题, 现实世界的场景, 甚至游戏场景的东西,

13:04.600 --> 13:08.650
因为不是每件事都是直截了当的｡

13:08.650 --> 13:15.670
有一些随机性的所有参与, 并不总是会采取行动, 在一定的状态｡ 

13:15.670 --> 13:16.360
会永远不会｡ 

13:16.360 --> 13:18.610
好吧, 并不总是会导致同样的结果｡ 

13:18.610 --> 13:24.100
这就是我们接下来要讨论的问题, 这会让事情变得更有趣｡

13:24.100 --> 13:29.170
希望大家对此感到兴奋, 并期待着看到接下来会发生什么｡ 

13:29.410 --> 13:35.800
与此同时, 我找到了一份很酷的论文, 这次可以让你看看｡ 

13:35.800 --> 13:39.820
这是一篇非常实用的论文, 所以这篇读起来真的很有趣｡ 

13:40.000 --> 13:47.890
这本书叫做〈马尔可夫决策过程的应用综述〉, 是白色特在1993年写的.

13:47.890 --> 13:56.950
这里有一个链接, 它会给你展示马尔可夫决策过程实际上在哪里被用来模拟真实的生活中的场景｡

13:56.950 --> 13:59.470
我想我对此感到非常兴奋｡ 

13:59.470 --> 14:00.940
我对一些例子印象深刻｡ 

14:00.940 --> 14:03.430
比如说人口收割｡ 

14:03.610 --> 14:09.220
假设你有一些鱼, 鱼的数量是多少, 你需要决定今年我们能钓到多少鱼,

14:09.220 --> 14:13.210
还有什么？

14:13.210 --> 14:14.260
这就是你现在的状态｡ 

14:14.260 --> 14:15.550
这就是你要采取的行动｡ 

14:15.550 --> 14:19.930
今年我们能拍多少张照片, 这样可能会有什么结果？

14:20.470 --> 14:22.000
明年我们会有多少条鱼？

14:22.000 --> 14:24.850
后年我们会有多少条鱼, 后年会有多少条, 等等？

14:24.850 --> 14:30.490
这是不确定的, 因为它不像如果你去掉90%的人口, 第二年,

14:30.490 --> 14:32.800
你会回到100%｡

14:32.800 --> 14:34.570
这并不是不确定的｡ 

14:34.570 --> 14:37.600
有些随机因素是我们无法控制的｡ 

14:37.600 --> 14:41.230
因此我们必须了解将会发生什么｡ 

14:41.230 --> 14:42.580
我们必须模拟将要发生的事情｡ 

14:42.580 --> 14:44.490
这就是马尔可夫决策过程被使用的地方｡ 

14:44.800 --> 14:48.160
农业, 有一个类似的例子, 比如收割庄稼｡ 

14:48.160 --> 14:49.330
我们收获了多少庄稼？

14:49.330 --> 14:49.900
多少钱？

14:49.900 --> 14:51.220
我们没有收获多少？

14:51.220 --> 14:59.710
另一个, 我看金融和投资就像一家保险公司需要决定多少资金, 它将投资于任何｡

14:59.770 --> 15:02.860
我想, 给定一天或一年或一段时间｡ 

15:02.860 --> 15:06.400
而且有一定的因素是不受其控制的｡ 

15:06.400 --> 15:09.130
比如说, 市场的走势, 它不知道会发生什么｡ 

15:09.130 --> 15:14.080
因此, 它需要以某种方式实际建模, 并使用市场决策过程｡ 

15:14.080 --> 15:20.260
在这里你可以看到很多很多的例子, 这是我认为每个例子的数量｡

15:20.380 --> 15:29.500
即使是体育运动, 两个例子, 运动和流行病和汽车保险索赔, 检查和维护和修理等等｡

15:29.500 --> 15:30.940
所以很有意思｡ 

15:30.970 --> 15:31.810
看看这个｡ 

15:31.810 --> 15:40.960
只是为了给予你们理解, 嘿, 这不只是虚构的东西, 假设的, 矩阵类型的东西｡

15:40.960 --> 15:42.520
这实际上是一个真实的的场景｡ 

15:42.520 --> 15:44.710
这样会给予你更好的理解｡ 

15:44.710 --> 15:49.240
这就是我们在这门课的宣传视频中谈到的, 或者说是对这门课的描述,

15:49.240 --> 15:55.810
我们将激励你们, 激励你们的直觉, 给予你们知道如何在真实的生活中使用人工智能｡

15:55.810 --> 15:57.490
这是你的机会｡ 

15:57.760 --> 16:02.680
看看这篇论文就明白了, 好的, 我们接下来要讨论马尔可夫决策过程｡

16:02.680 --> 16:03.790
真的很酷

16:03.790 --> 16:05.170
他们在现实生活中是什么样子的？

16:05.170 --> 16:11.110
这可能会引发一些想法, 让你在未来如何应用人工智能, 让世界变得更美好｡

16:11.500 --> 16:13.600
我们会非常高兴的｡ 

16:13.600 --> 16:18.640
如果你能用你在这门课上学到的东西, 用AI让世界变得更美好, 那将是超级快乐的｡

16:18.670 --> 16:19.870
那该有多棒啊

16:20.170 --> 16:23.050
因此, 我希望您喜欢今天的教程｡ 

16:23.050 --> 16:24.460
我期待着下次见到你｡ 

16:24.460 --> 16:26.470
在那之前, 好好享受我｡