WEBVTT

00:00.910 --> 00:03.850
大家好, 欢迎回到人工智能课程｡ 

00:03.850 --> 00:06.550
今天我们终于要讨论队列学习了｡ 

00:06.940 --> 00:07.450
好吧, 我会的

00:07.450 --> 00:13.050
所以我们已经得到了这个方程, 贝尔贝尔蒙特方程, 我们在其中加入了很多成分｡ 

00:13.060 --> 00:19.510
我们在这里得到了回报, 它不仅可以在最后, 而且可以在任何给定的步骤｡ 

00:19.840 --> 00:26.050
我们有折扣因子, 我们有概率, 因为现在我们看的是马尔可夫决策过程,

00:26.110 --> 00:31.810
这里我们有不同状态的概率,

00:31.810 --> 00:40.180
不管我们采取什么行动, 或者实际上给定我们采取的行动, 它们可以是我们最终可能进入的多个状态, 然后我们得到下一个状态的值｡

00:40.180 --> 00:46.600
所以你可以看到它有点像递归函数等等, 但是你可能还有一个问题｡ 

00:46.660 --> 00:51.250
问题是这封信在哪里

00:51.250 --> 00:54.220
Q为什么这一切都被称为Q学习？

00:54.220 --> 00:55.720
Q在哪里？

00:55.720 --> 00:58.660
这就是我们今天要回答的问题｡ 

00:58.660 --> 01:04.480
到目前为止, 我们一直在讨论价值观, 处于某种状态的价值观｡ 

01:04.480 --> 01:09.700
现在我们来看看Q值是如何适应这一切的｡ 

01:09.820 --> 01:12.040
这里我们有两个例子｡ 

01:12.040 --> 01:14.410
左边是我们目前所做的｡ 

01:14.410 --> 01:17.950
我们的探员一直在分析, 好吧, 我在这里｡ 

01:17.950 --> 01:21.520
这是决策过程的标志, 所以我是怎么到这里的并不重要｡ 

01:21.550 --> 01:26.170
环境的其他部分并不关心我走到这里的步骤｡ 

01:26.170 --> 01:33.070
从现在开始, 我必须做出最优的决定, 在这里, 这里, 这里,

01:33.070 --> 01:37.150
基于当前的状态和所有来自这里的未来状态, 而不是来自过去的状态｡

01:37.150 --> 01:39.580
所以他可以看到有三个选择｡ 

01:39.580 --> 01:42.010
有一个州一个州到三个州｡ 

01:42.010 --> 01:49.780
根据他的经验, 他已经计算出了这些状态下的值, 现在他要用贝尔蒙特方程｡

01:49.780 --> 01:53.950
所以尽管这是一个随机过程, 他知道他会走这里, 但也有可能会向左或向右,

01:53.950 --> 01:56.020
等等.

01:56.020 --> 02:00.550
因此, 基于这些价值观, 做出决定, 这是我们迄今为止一直在做的,

02:00.550 --> 02:03.280
这是完全合法的方法｡

02:03.280 --> 02:05.590
但现在我们要稍微修改一下｡ 

02:05.590 --> 02:10.270
我们要用同样的概念, 同样的问题｡ 

02:10.270 --> 02:15.970
但在这里, 我们不去看他最终所处的状态的价值,

02:15.970 --> 02:21.340
我们要看的是每一个行动的价值.

02:21.340 --> 02:25.240
所以我们不再用字母V了因为V代表状态的值｡ 

02:25.240 --> 02:29.710
我们将使用Q, 你们可能会问为什么是字母？

02:29.710 --> 02:30.460
问：好吧｡ 

02:30.490 --> 02:32.230
问：有人这样猜测｡ 

02:32.230 --> 02:36.280
问：嗯, 我读过这篇文章, 我想在Quora上有人提到过｡ 

02:36.280 --> 02:41.650
Q是因为质量, 但同时, 我找不到任何其他参考｡ 

02:41.650 --> 02:45.610
所以可能不是因为这个, 可能只是因为当时用的是这个字母｡ 

02:45.610 --> 02:50.410
现在它变得非常流行, 因为它被称为Q学习｡ 

02:50.500 --> 02:57.010
所以没有确切的原因为什么它被称为Q, 但至少可以帮助我们区分V和Q｡ 

02:57.010 --> 03:03.250
所以这里Q代表a, 而不是它所代表的状态的值, 我们来看看质量｡ 

03:03.250 --> 03:06.190
它代表了它所代表的动作的质量｡ 

03:06.400 --> 03:07.840
所以我有四个行动｡ 

03:08.050 --> 03:10.750
这些行动有什么不同的性质？

03:10.750 --> 03:14.200
行动的价值或性质是什么？

03:14.200 --> 03:15.670
哪种行动更有利可图？

03:15.670 --> 03:19.600
所以我需要一个指标来告诉我, 好吧, 我如何量化这个行动？

03:19.600 --> 03:20.770
然后我就可以比较它们了｡ 

03:20.770 --> 03:22.570
而这正是Q的意义所在｡ 

03:23.170 --> 03:28.930
这里他有四种可能的动作, 和往常一样, 向上, 向右, 向左, 向下.

03:28.930 --> 03:35.110
基于这个行为, 会有一个公式告诉我们这个行为的可量化价值, 我们称之为Q,

03:35.110 --> 03:38.350
这个行为的Q值.

03:38.350 --> 03:41.650
让我们来看看如何推导这个公式｡ 

03:41.650 --> 03:44.110
问：它实际上与什么有什么关系？

03:44.110 --> 03:51.940
因为你可以想象, 因为行为导致状态, 两者之间一定有某种联系, 对吧？

03:51.940 --> 03:55.960
我们已经决定了如何计算这个, 我们很擅长｡ 

03:55.960 --> 04:01.960
我们知道如何使用贝尔曼方程和非常不同的环境与许多不同的复杂性｡ 

04:01.960 --> 04:08.620
好吧, 让我们利用这些知识来理解我们现在如何计算Q, 以便做出同样的预测,

04:08.620 --> 04:14.210
因为正如你所想象的, 环境不会因为我们使用的方法而改变｡

04:14.210 --> 04:16.270
无论如何, 环境都是一样的｡ 

04:16.270 --> 04:24.400
所以这个方法和这个方法应该总是给予相同的结果, 这也是为什么这两个方法应该联系在一起的另一个原因｡

04:24.880 --> 04:26.020
让我们来看看｡ 

04:26.020 --> 04:32.110
这就是我们的方法, 我们只需要查看任何给定状态的值, 这个状态或任何其他状态｡

04:32.110 --> 04:36.880
这里我们用字母S表示, 因为这是当前的状态｡ 

04:36.880 --> 04:40.480
因此, 两个方程中的术语是相同的｡ 

04:40.480 --> 04:45.460
这里我们用Q来表示, Q是状态s和动作的？

04:45.460 --> 04:49.420
A因为动作已经启动了, 但是我们是在什么状态下执行那个动作的呢？

04:49.420 --> 04:51.700
我们在州内执行该动作｡ 

04:51.700 --> 04:56.350
好的, 现在我们要写出第一种方法的方程｡ 

04:56.350 --> 05:00.370
正如你在这里看到的, 我们得到了SE的V, 所以的值｡ 

05:00.480 --> 05:05.490
任何给定的状态都是你得到的奖励的最大值｡ 

05:05.500 --> 05:08.070
所以最大的基于你的行动｡ 

05:08.070 --> 05:10.350
三在这个例子中你实际上有四个动作｡ 

05:10.350 --> 05:12.690
所以最大限度地排除了所有可能的行动｡ 

05:12.690 --> 05:15.240
然后是这个部分, 我们已经讨论过很多次了｡ 

05:15.240 --> 05:22.080
这是我们在那个状态下执行那个动作得到的奖励,

05:22.080 --> 05:29.370
加上一个折扣因子乘以我们将要进入的新状态的期望值, 因为这是一个随机过程.

05:29.370 --> 05:32.940
我们不确定我们最终会在这里结束｡ 

05:32.940 --> 05:35.820
我们可能会以一定的概率在左边或右边结束｡ 

05:35.820 --> 05:37.590
这就是为什么这些概率在这里｡ 

05:38.100 --> 05:38.430
好吧, 我会的

05:38.430 --> 05:40.170
这就是我们的价值｡ 

05:40.170 --> 05:41.370
现在我们来看看Q｡ 

05:41.370 --> 05:43.410
所以Q是有定义的｡ 

05:43.410 --> 05:45.030
我们要用这个来定义｡ 

05:45.030 --> 05:50.550
问：那么让我们假设代理从这个位置, 从这个状态执行动作｡ 

05:50.550 --> 05:54.290
Q值将等于多少？

05:54.300 --> 05:59.220
好吧, 首先, 让我们看看他会得到什么回报执行这个行动了｡ 

05:59.220 --> 06:01.950
你会得到的第一件事就是奖励, 对吧？

06:01.950 --> 06:05.500
毫无疑问, 他们会得到某种奖励｡ 

06:05.500 --> 06:06.210
它可能是零｡ 

06:06.210 --> 06:12.540
但我们知道, 强化学习过程的整个运作方式是, 有时候, 在特定状态下执行某些动作,

06:12.540 --> 06:15.840
会有奖励.

06:15.840 --> 06:19.620
所以我们要把它加进去, 然后我们要加什么呢？

06:19.620 --> 06:21.030
好吧, 让我们考虑一下｡ 

06:21.030 --> 06:24.570
他拿到奖励后接下来会发生什么？

06:24.570 --> 06:29.610
接下来发生的事情是, 现在代理处于某种状态｡ 

06:29.970 --> 06:34.530
他有80%的可能性会死在这里｡ 

06:34.530 --> 06:36.570
但实际上你要去这里或这里｡ 

06:36.570 --> 06:46.980
但是无论他现在在哪里, 我们已经有了一个量化的指标来衡量他所处的状态, 这实际上是那个状态的价值｡

06:46.980 --> 06:55.410
但因为他不可能在三种不同的状态中处于多个不同的状态, 我们必须考虑他所处状态的期望值.

06:55.950 --> 06:57.660
所以我们要把它加进去｡ 

06:57.660 --> 07:03.840
当然, 我们要加上之前的贴现因子, 因为那是在未来的某个地方｡

07:03.840 --> 07:13.920
然后我们要把所有可能状态的总和相加, 所有可能状态的总和, 他采取这个行动的概率的倍数.

07:13.920 --> 07:20.100
所以我们在这里说的是, 通过执行一个行动, 你将获得一个奖励加, 这是一个量化的指标,

07:20.100 --> 07:24.720
加上你将得到你最终在一个状态, 我们不知道是哪一个｡

07:24.720 --> 07:25.680
可能在这里｡ 

07:25.680 --> 07:26.160
可能在这里｡ 

07:26.160 --> 07:26.820
可能在这里｡ 

07:26.820 --> 07:31.980
但这是你最终所处状态的期望值.

07:31.980 --> 07:35.850
现在我们要把它乘以贴现因子, 因为这是一步之遥｡ 

07:36.150 --> 07:40.860
这就是我们执行这个动作的提示值｡ 

07:41.040 --> 07:44.610
你们马上就会注意到｡ 

07:44.610 --> 07:51.240
Q值实际上和这些括号里的值完全一样｡ 

07:51.720 --> 07:52.590
为什么呢？

07:52.590 --> 07:57.660
如果你仔细想想, 我们取的是结果的最大值

07:57.660 --> 08:00.900
我们将获得所有可能操作的最大值｡ 

08:00.900 --> 08:04.950
所以我们有四个行动, 我们在所有可能的行动中取最大值,

08:04.950 --> 08:07.950
我们通过采取每一个行动得到的结果｡

08:08.040 --> 08:09.030
又进去了｡ 

08:09.030 --> 08:11.070
问：我们正在定义“有趣”｡ 

08:11.070 --> 08:13.710
我们采取某种行动会得到什么？

08:13.710 --> 08:21.510
所以如果你仔细想想, 一个状态的值是有意义的, 比如, 这个状态是所有可能的Q值中的最大值,

08:21.510 --> 08:25.870
对吗？

08:25.890 --> 08:32.820
所以这里在这种状态下, 通过被处于这种状态, 代理具有一个Q值到三个Q值的Q值｡

08:32.820 --> 08:34.860
所以他有四个可能的Q值｡ 

08:34.860 --> 08:42.300
状态的值是有意义的, 因为状态的值是所有Q值中的最大值｡

08:42.300 --> 08:44.340
而这正是我们在这里所看到的｡ 

08:44.340 --> 08:48.000
这很好地证实了我们推导出的这个新公式｡ 

08:48.000 --> 08:52.170
如果不是这样, 如果不匹配, 那么我们就会有问题｡ 

08:52.170 --> 08:53.880
我们会说, 那为什么？

08:53.880 --> 08:54.840
为什么不匹配？

08:54.990 --> 08:56.940
为什么不匹配？

08:56.940 --> 09:11.640
如果Q值是执行一个动作的量化度量, 而V依赖于这四个, 则好比是他所能执行的四个动作的可能结果的最大值｡

09:12.000 --> 09:16.920
希望这是有意义的, 这证实了我们刚刚推导出的公式｡ 

09:17.190 --> 09:20.970
现在我们要让它变得更有趣｡ 

09:20.970 --> 09:26.010
我们要完全去掉V, 因为你可以看到这里有V是V的递归函数, 所以然后我们有V, 然后V, 然后V,

09:26.010 --> 09:29.700
然后V, 等等｡

09:29.700 --> 09:36.720
所以你可以用下面所有的V来表示这个V, 最优的V会出现在这里｡

09:36.810 --> 09:45.150
我们把Q表示成V的递归函数或者下一个V的函数, 然后我们必须把这个V代入, 然后我们回到V｡

09:45.150 --> 09:52.050
所以我们要做的就是把这个V, 我们要我们要把它替换成｡

09:52.200 --> 09:53.100
问：对｡ 

09:53.100 --> 09:54.240
让我们来看看｡ 

09:55.050 --> 10:01.080
我们要取下一个状态的V, 然后把它代入到这个公式中｡ 

10:01.320 --> 10:05.490
就像你现在看到的, 这部分没有改变｡ 

10:05.490 --> 10:06.990
这个概率不会改变｡ 

10:06.990 --> 10:16.710
但正如我们刚才讨论的, SE的v是S和A的Q的所有作用下的最大值｡ 

10:16.710 --> 10:19.110
这就是我们要在这里替换的｡ 

10:19.110 --> 10:23.640
所以我们要说的最大值, 当然, 是新的作用, 我们要采取的作用,

10:23.640 --> 10:26.460
因为这里我们得到了S的V｡

10:26.460 --> 10:30.630
这里我们得到了所有素数的最大值｡ 

10:30.630 --> 10:34.260
所以我们从这个状态或者其他任何状态,

10:34.260 --> 10:39.840
采取的行动, 不管我们最终处于哪个状态,

10:39.840 --> 10:50.100
但是我们从那里采取的行动, 在所有这些中取最大值, 最大值是在那个新状态下, 我们可以得到的所有Q值中的一个, 作为撇号｡

10:50.100 --> 10:51.210
这就是行动｡ 

10:51.210 --> 10:54.360
这就是, 这里还有另外四个Q值｡ 

10:54.360 --> 10:56.400
现在大家可以看到, 让我们再回顾一遍｡ 

10:56.790 --> 11:02.880
从我们刚才讨论的逻辑和直觉中我们可以看到, VM实际上是S的V,

11:02.880 --> 11:09.860
和S的, R连接的S的D, 是这个Q的所有动作的最大值｡

11:09.930 --> 11:13.530
你可以看到这里, 所以这个, 这个部分和这个部分是一样的｡ 

11:14.070 --> 11:18.900
然后我们将利用它, 用V来代替这个位｡ 

11:18.900 --> 11:21.420
S从这里, 但不是这个确切的公式｡ 

11:21.420 --> 11:27.540
我们将把这个内部部分替换为Q和A部分, 将其插入到这里｡

11:27.540 --> 11:28.890
而这一部分将是｡ 

11:28.890 --> 11:36.570
Q为S的素数, 一个素数, 所以Q的最大值由跨越所有一个素数的Q的一个素数来表示｡ 

11:36.810 --> 11:39.570
现在我们有了公式｡ 

11:39.570 --> 11:43.380
现在我们有了Q值的递归公式｡ 

11:43.380 --> 11:47.130
那么现在代理人可以想, 这个行动有什么价值呢？

11:47.130 --> 11:48.480
这个动作的质量如何？

11:48.480 --> 11:50.220
这个动作的Q值是多少？

11:50.220 --> 11:51.780
那要看报酬了｡ 

11:51.780 --> 11:53.940
我马上就能做到｡ 

11:53.940 --> 12:04.020
另外它还取决于折扣因子的倍数, 也就是那个状态下所有可能的Q行动的最大值, 但我不知道我是否能达到这个值.

12:04.020 --> 12:09.240
所以我还需要看看这个状态和那个状态, 这就是为什么我们在这里有这个期望值｡

12:09.240 --> 12:13.200
所以我们有概率和乘以最大值, 这就是我们的期望值｡ 

12:13.200 --> 12:15.420
你们可以看到非常相似的公式｡ 

12:15.420 --> 12:22.560
但这次我们用Q值来表达, 这就是为什么整个算法被称为Q学习,

12:22.560 --> 12:26.880
因为这就是我们所关注的｡

12:26.880 --> 12:28.440
这是代理实际使用的｡ 

12:28.440 --> 12:31.080
他们不看国家, 他们看他们可能的行动｡ 

12:31.080 --> 12:35.700
然后根据行动, 根据行动的Q值, 他们将决定采取哪一个行动｡ 

12:35.700 --> 12:40.230
他们只需要查看给定状态下的最大Q值, 它有四个动作｡ 

12:40.230 --> 12:43.350
最好采取什么行动才能进行比较？

12:43.350 --> 12:49.440
而不是比较它最终可能处于的不同状态, 而是比较它当前可能采取的行动｡

12:49.740 --> 12:57.300
然后通过找到最优的一个, 它会采取行动, 然后会重复这个过程, 重复这个过程, 等等｡

12:57.300 --> 13:04.080
现在你可以看到所有这些是如何结合在一起的, 奖励, 贴现因子,

13:04.230 --> 13:10.440
随机马尔可夫决策过程,

13:10.440 --> 13:19.680
V值和Q值是如何结合在一起的, 以便给予我们一个超级强大的Q值贝尔曼方程, 我们现在可以应用它, 让我们的代理人学习如何战胜环境｡

13:20.160 --> 13:23.250
这是对这一切的直观解释｡ 

13:23.250 --> 13:28.440
我知道我们已经讲过公式了,

13:28.440 --> 13:38.370
但这是必要的, 因为这和我们这一章讲过的公式很像, 我认为这是从V到Q的一个很好的过渡, 它说明了它们之间是如何相互联系的｡

13:38.490 --> 13:46.830
如果你想了解更严格的数学方法, 比如它背后的数学原理, 了解更多关于Q值及其工作原理的知识,

13:46.830 --> 13:53.850
那么我们为你准备了一些额外的阅读｡

13:54.030 --> 14:02.730
本文被称为马尔可夫决策过程, 概念和算法由马丁冯奥特法律2009年｡ 

14:02.730 --> 14:12.390
这里的链接和往常一样, 您可以在这里阅读更多的细节, 以了解队列值等背后的所有细节｡

14:12.390 --> 14:17.340
现在我们已经讨论了所有与贝尔蒙特方程相关的东西,

14:17.340 --> 14:27.600
现在我们准备看看更复杂的东西, 比如这篇论文, 如果我们想获得一些关于这个方程的额外信息, 以便更深入地理解｡

14:27.600 --> 14:33.480
但是,

14:33.480 --> 14:40.410
即使您还没有通读本文, 您也应该对学习的意义以及代理人如何在特定环境中提出他们需要采取的行动有一个很好的工作知识｡

14:40.680 --> 14:43.890
所以, 我希望你喜欢今天的教程, 我期待着看到你下一次｡ 

14:43.890 --> 14:45.720
在那之前, 好好享受我｡