WEBVTT

00:01.160 --> 00:04.720
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.740 --> 00:07.950
Aujourd'hui, nous parlons de la différence temporelle.

00:08.100 --> 00:14.310
Maintenant, il est très important d'essayer car la différence temporelle est le cœur et l'âme de l'algorithme

00:14.340 --> 00:15.100
d'apprentissage Q.

00:15.120 --> 00:22.410
C’est ainsi que tout ce que nous avons appris jusqu’à présent entre en jeu dans un apprentissage clé.

00:22.410 --> 00:23.880
Alors jetons un coup d'oeil.

00:23.910 --> 00:28.040
Rappelez-vous le moment où nous avons parlé de recherche déterministe par rapport à la recherche non déterministe.

00:28.410 --> 00:34.960
Et rappelez-vous comment nous avons dit dans ce cas que lorsque l'agent veut monter, il monte et quand.

00:35.070 --> 00:38.740
Dans ce cas, il veut monter, il a 10% de chance d'aller en bas à gauche et de

00:38.730 --> 00:41.390
chance et d'aller à droite et 80% de chance d'aller à droite.

00:41.400 --> 00:42.390
Allez tout droit jusqu'à.

00:42.450 --> 00:46.410
Bien que ces chiffres soient bien sûr arbitraires et puissent être différents.

00:46.410 --> 00:52.260
Et tout ce concept est qu'il pourrait s'agir de problèmes différents, de sorte qu'il n'a pas à se préoccuper de

00:52.320 --> 00:57.090
la manière dont il agit, mais qu'il y a quelque chose d'aléatoire qui échappe au contrôle

00:57.300 --> 00:59.930
de l'agent qui se produit dans cet environnement.

01:00.060 --> 01:07.470
Et quel en a été l’effet, comme vous vous en souvenez, c’est que dans l’exemple déterministe, il était très facile de calculer les valeurs

01:07.470 --> 01:11.030
de la Wii sans que cela soit nécessairement toujours très facile.

01:11.040 --> 01:16.530
Mais dans notre cas, nous pouvions simplement les calculer en utilisant l’équation de Belman et nous avions les valeurs

01:16.530 --> 01:17.120
exactes.

01:17.370 --> 01:24.810
Et puis, comme vous vous en souvenez, j'ai très soigneusement mentionné que ces valeurs pour l'exemple de recherche

01:24.810 --> 01:27.810
non déterministe me venaient à l'esprit.

01:27.840 --> 01:29.220
Ils ne sont pas Kalka, nous savons.

01:29.270 --> 01:33.090
La dernière fois que j'ai dit, nous ne devions pas simplement les calculer, car c'est très complexe.

01:33.090 --> 01:39.600
Mais l'ordinateur peut le faire et nous nous sommes contentés de ces valeurs qui ne sont que des valeurs que j'ai inventées.

01:39.600 --> 01:41.310
Mais ils ont fait le travail.

01:41.310 --> 01:43.030
Ils nous ont aidés à comprendre le concept.

01:43.290 --> 01:47.790
Eh bien, nous allons y revenir un peu et comprendre ce qui se passe exactement ici.

01:47.790 --> 01:55.420
Pourquoi est-il si difficile de calculer ces valeurs dans l'exemple non déterministe ou, d'une manière générale, dans les problèmes

01:55.420 --> 01:59.570
rencontrés dans ces environnements et dans lesquels l'agent les traverse

01:59.580 --> 02:00.400
Pourquoi est-ce.

02:00.510 --> 02:03.030
Pourquoi est-ce si difficile de calculer ces valeurs?

02:03.030 --> 02:09.010
Eh bien, quand vous y réfléchissez, parce que quand l'agent se déplace pour

02:09.090 --> 02:15.270
aller par exemple d'ici à droite, il ne le fait pas nécessairement toujours parfois pour

02:15.450 --> 02:22.290
tenter de gagner, au lieu d'aller tout droit, alors appelons ces nord-est sud-ouest sorte d'aller vers l'ouest.

02:22.470 --> 02:27.360
L'agent peut parfois aller vers le sud et, par exemple, partir d'ici pour aller au nord.

02:27.360 --> 02:29.220
Il peut parfois aller à l'est.

02:29.460 --> 02:30.240
Désolé.

02:30.240 --> 02:34.680
Donc ici, au lieu d'aller à l'est, il peut parfois aller au sud et il va en quelque sorte au nord.

02:34.710 --> 02:40.200
Il peut parfois aller vers l'est ou l'ouest et ici, au lieu d'aller vers le nord, il peut parfois aller vers l'ouest ou

02:40.200 --> 02:41.160
l'est ou l'ouest, etc.

02:41.160 --> 02:47.010
Donc et donc Donc, pour calculer cette valeur, vous devez savoir quelle est cette valeur, mais l’intéressant est

02:47.010 --> 02:51.110
que pour calculer cette valeur, vous devez savoir quelle est cette valeur.

02:51.120 --> 02:56.790
Donc, il y a beaucoup de récursion qui se passe ici et par conséquent, vous ne pouvez pas simplement décider de définir quelles sont

02:56.790 --> 02:57.340
ces valeurs.

02:57.360 --> 03:01.140
Et en plus de cela cette récursion n'est pas déterministe.

03:01.140 --> 03:06.000
C’est parfois que cela se produit de cette façon, c’est parfois assez difficile de marcher à droite au lieu

03:06.000 --> 03:08.250
de se lever et aller à gauche parfois.

03:08.730 --> 03:09.540
Quand il veut monter.

03:09.540 --> 03:10.520
Il va monter.

03:10.560 --> 03:17.460
Donc, il est sujet au hasard et peut-être que bien souvent, un agent suivra ce chemin et il montera et vous penserez

03:17.460 --> 03:22.050
qu'à partir de là, vous montez toujours et que la valeur de l'État

03:22.050 --> 03:27.370
le fera. sera bon et tout à coup il tombera dans la fosse et cette valeur baissera.

03:27.620 --> 03:33.600
Et donc, vous pouvez donc voir qu’il ya un certain aléa stochastique dans tout ce calcul sur ces valeurs, car elles

03:33.600 --> 03:35.370
sont toutes liées entre elles.

03:35.370 --> 03:40.920
De plus, vous avez ce caractère aléatoire dans cet environnement inhérent, car il y a une marque

03:40.920 --> 03:42.320
de processus de décision.

03:42.540 --> 03:47.790
C’est donc là que tout se passe et que nous allons introduire le concept

03:47.790 --> 03:52.370
de différence temporelle qui permettra à l’agent de calculer ces valeurs.

03:52.530 --> 03:55.560
Et ici, nous avons eu affaire à des valeurs.

03:55.560 --> 03:59.390
Et depuis lors, nous sommes déjà passés aux valeurs Q et c’est ce sur quoi nous allons travailler.

03:59.400 --> 04:01.980
Nous allons examiner d’énormes valeurs.

04:02.010 --> 04:06.090
Donc, si je me souviens bien, c'est notre équation de Belman pour les valeurs q.

04:06.180 --> 04:15.090
Ainsi, la valeur AQ ou la valeur de réaliser une sorte d’action A dans l’état s est égale à la récompense que vous

04:15.090 --> 04:22.770
obtenez après avoir effectué ces actions immédiatement après avoir effectué une action et obtenez-vous le maximum que vous obtenez le

04:22.770 --> 04:26.720
gamma de la somme de tous les possibles .

04:26.910 --> 04:31.680
Ainsi, vous obtenez en quelque sorte la valeur attendue de l'état dans lequel vous vous retrouverez.

04:31.680 --> 04:37.710
Donc, comme vous vous en souvenez, il existait une formule pour l’équation de Beldon et, pour simplifier, dites simplement

04:37.710 --> 04:43.670
que nous allons la réécrire de la même manière et de la manière dont nous parlions de l’équation du

04:43.680 --> 04:45.850
chasseur avant de connaître le séquestre.

04:45.880 --> 04:53.100
Alors rappelez-vous que c'était notre équation de Belman au sens d'un exemple de recherche déterministe, car ici vous n'avez pas cette

04:53.100 --> 04:57.600
valeur attendue, vous n'avez pas la même chose pour toutes les probabilités.

04:57.750 --> 05:03.110
Vous avez juste cela comme s'il était déterminé que vous allez finir dans quel état vous allez finir et

05:03.110 --> 05:05.450
ensuite vous dites à Max dans cet état-là.

05:05.570 --> 05:12.170
Et la raison pour laquelle nous sommes en train de la réécrire est tout simplement parce qu’il est tout simplement plus facile de l’écrire et qu’il

05:12.200 --> 05:14.550
sera plus facile de tomber avec la formule.

05:14.550 --> 05:19.340
Nous allons donc simplement nous rappeler que nous avons remplacé cette partie de cette barre.

05:19.430 --> 05:25.400
Et vous trouverez également cette notation dans de nombreux ouvrages, ce qui vous permettra de suivre plus

05:25.400 --> 05:28.310
facilement les autres sources si vous les étudiez.

05:28.370 --> 05:35.390
Mais rappelez-vous que ce que nous voulons dire en réalité, c’est que cette approche probabiliste, au lieu de cette notation, est simplement plus facile

05:35.500 --> 05:39.130
pour nous d’opérer cela et de comprendre ce qui se passe.

05:39.140 --> 05:44.180
J'aime bien regarder les équations pour ne pas qu'elles soient trop encombrées, mais une fois encore, rappelez-vous

05:44.180 --> 05:48.050
que ce que nous voulons dire en réalité est cette approche probabiliste.

05:48.290 --> 05:52.130
Nous savons donc que Tom Silis regarde ce qui se passe.

05:52.190 --> 06:00.350
Donc, voici notre état vide du labyrinthe où nous n'avons aucune valeur q, voyons ou quand nous pouvons le faire, mais

06:00.500 --> 06:05.510
gardons-le vide pour l'instant regardons l'un des états ou l'une des cellules.

06:05.570 --> 06:07.280
Celui-ci spécifiquement.

06:07.820 --> 06:11.240
Et nous avons ici des réponses pour l'action de monter.

06:11.240 --> 06:14.290
Nous avons une valeur q que nous calculons.

06:14.290 --> 06:18.070
Donc, ce n’est pas que nous n’avons aucune valeur q, mais nous l’avons.

06:18.080 --> 06:19.930
Mais nous n'illustrons rien.

06:19.930 --> 06:22.520
Nous ne faisons que garder un blanc pour des raisons de simplicité.

06:22.610 --> 06:28.570
Mais nous avons l'âge qui marche depuis un certain temps et supposons d'une manière hypothétique qu'il calcule

06:28.580 --> 06:36.560
cette valeur de cube de montée ou de Norf à partir de cet état à partir de cette cellule spécifique et des valeurs.

06:36.560 --> 06:40.240
Q S et A et maintenant ce que nous avons.

06:40.240 --> 06:45.070
Donc, il est actuellement avec son point de flèches bleues et l'agent est assis dans cette cellule.

06:45.590 --> 06:48.560
Et maintenant, il doit choisir où il va aller.

06:48.590 --> 06:57.290
Et il connaît la valeur de cette action qui va vers le nord et c’est q Senay et je le dis ici avant. La raison

06:57.290 --> 07:01.940
en est que c’est avant de prendre. En fait, il n’a pas encore

07:01.940 --> 07:10.760
pris de mesures, il est toujours dans la cellule et avant de prendre l'action, la valeur ici est q et SNH et maintenant, il prend

07:10.760 --> 07:11.370
l'action.

07:11.390 --> 07:13.670
Alors disons qu'il décide est le meilleur.

07:13.670 --> 07:16.440
Il passe à l'action et il monte dans la cellule.

07:16.730 --> 07:24.320
Eh bien, maintenant, ce qui se passe vient maintenant après. Après qu’il ait pris des mesures, nous pouvons mesurer la valeur de

07:24.350 --> 07:30.650
cette valeur. Calculons simplement cette valeur comme la récompense de cette action plus le gamma fois le maximum

07:30.650 --> 07:35.640
de ce nouvel état dans lequel il vient tout juste de se placer. premier.

07:35.640 --> 07:39.030
Et si le maximum dans toutes les actions possibles et l'aspirine.

07:39.080 --> 07:44.770
Et donc ce que nous avons ici est la valeur antérieure de cette action.

07:44.810 --> 07:47.650
Et ensuite nous avons calculé cette métrique par la suite.

07:47.660 --> 07:54.860
Mais comme vous vous en souviendrez au cours des quatre mois précédents, si nous revenons très rapidement de la formule précédente où nous venons de calculer la

07:55.630 --> 08:02.180
valeur, c’est ainsi que Q / s. une. a est calculé.

08:02.210 --> 08:07.930
Donc, cette partie d’Arite vient d’être calculée séparément mais après que nous ayons pris des mesures.

08:08.330 --> 08:15.470
Donc, comme avant, nous connaissions un Q de S et une valeur, quelque chose que nous avons calculé à travers nos itérations

08:15.470 --> 08:16.860
Preuss est quelque chose.

08:17.000 --> 08:19.990
Donc, une valeur qui est stockée dans notre mémoire.

08:20.000 --> 08:26.990
Donc, tout comme un nombre que nous connaissons et maintenant, après l'action, nous savons quelle récompense il

08:27.050 --> 08:30.270
a réellement eue, quelle récompense a l'agent.

08:30.440 --> 08:33.320
Et nous pouvons calculer cette nouvelle valeur.

08:33.320 --> 08:39.690
Nous avons donc en quelque sorte recalculé cette valeur, mais maintenant, avec de nouvelles informations, les nouvelles informations sont la récompense

08:39.690 --> 08:41.120
que nous avons eu.

08:41.600 --> 08:47.330
Et en plus de ce qui est resté, nous nous sommes retrouvés dans et quel est le maximum dans cet état

08:47.420 --> 08:50.540
ce que peut être cette nouvelle valeur pour ces données spécifiques.

08:50.570 --> 08:54.480
Alors, quelle est la valeur de cet être dans cet état?

08:54.500 --> 09:02.060
Donc, fondamentalement, le curé Vanessa-Mae, mais avec de nouvelles informations et maintenant, la différence temporelle est définie comme un tiddy

09:02.150 --> 09:07.700
de a et s de ces deux de la différence entre ces deux.

09:07.700 --> 09:11.770
Donc, voici le premier élément est votre valeur hors-Terra.

09:11.780 --> 09:16.250
Donc, le genre de Q de Esson un peu calculé par la suite.

09:16.550 --> 09:21.880
Et le précédent quvenzhané A que vous aviez stocké dans votre mémoire.

09:22.070 --> 09:24.170
Et donc la question est-ils sont-ils différents?

09:24.290 --> 09:26.240
Donc, idéalement, ils devraient être les mêmes.

09:26.240 --> 09:31.750
Idéalement, cela devrait être identique à ceci simplement parce que c'est la formule pour calculer cela.

09:31.790 --> 09:38.060
Mais le problème, c’est que ce n’est pas quelque chose que nous, Kalka, c’est quelque chose que nous avons tiré de preuves empiriques de

09:38.060 --> 09:41.320
quelque chose que nous avons simplement parcouru le labyrinthe et calculé.

09:41.320 --> 09:44.330
C'est donc quelque chose que nous avons trouvé jusqu'à présent.

09:44.360 --> 09:46.820
Ce n'est pas lié à l'itération actuelle.

09:46.820 --> 09:52.070
C'est quelque chose que nous avons imaginé il y a très longtemps, mais dans l'une de nos précédentes itérations,

09:52.070 --> 09:53.180
passant par le labyrinthe.

09:53.510 --> 09:57.740
Considérant que ceci est quelque chose que nous avons calculé tout à l'heure et il

09:57.740 --> 10:04.720
n'y a aucune garantie qu'ils seront identiques ou en raison du caractère aléatoire qui existe dans le labyrinthe, car cela aurait pu être calculé et

10:04.750 --> 10:10.260
voir certains événements aléatoires CRN ont été déclenchés et cela peuvent être appelés à différents événements aléatoires se produisant

10:10.300 --> 10:11.290
ont été déclenchés.

10:11.740 --> 10:15.680
Et alors maintenant nous écrivons nos héros simplement le déplacer là-haut.

10:15.700 --> 10:16.900
Alors, comment utilisons-nous cela.

10:16.900 --> 10:20.470
La question est OK alors nous avons cette différence temporelle.

10:20.470 --> 10:21.340
Comment utilisons-nous cela.

10:21.400 --> 10:23.450
Et pourquoi appelle-t-on cela la différence temporelle.

10:23.590 --> 10:28.960
Eh bien, la raison s'appelle la différence temporelle, c'est parce que vous calculez essentiellement la même chose

10:28.990 --> 10:33.460
que vous calculez QS et A donc la valeur Q de cette action.

10:33.640 --> 10:36.140
Votre Calcott ici et vous le calculez ici.

10:36.340 --> 10:38.310
Mais la différence est le temps.

10:38.320 --> 10:44.140
Ceci est le Q de S et ils étaient auparavant c’est le Q de S et A.

10:44.140 --> 10:49.090
Maintenant, votre nouveau remède est inné et la question est de savoir s'il y a eu une différence.

10:49.090 --> 10:51.700
Y a-t-il eu un décalage entre eux dans le temps?

10:52.060 --> 10:56.830
Et comment pouvons-nous utiliser cela à notre avantage s’il ya effectivement eu un décalage dans le temps.

10:57.040 --> 11:02.790
Eh bien, une chose que nous pourrions faire, c’est que nous pourrions dire OK et vous connaissez notre QS. une. un pas.

11:02.830 --> 11:07.490
Cette nouvelle valeur ne correspond pas à l'ancienne, nous allons donc nous en débarrasser ou oublier

11:07.510 --> 11:09.610
l'ancienne et nous utiliserons simplement cette valeur.

11:09.970 --> 11:11.920
Mais ce ne serait pas intelligent.

11:11.950 --> 11:17.960
Et la raison en est que dans nos environnements, des événements aléatoires peuvent parfois se produire.

11:18.140 --> 11:25.500
Et si notre ancien QSA de s. une. a était quelque chose qui se produit régulièrement dans 80% des cas.

11:25.780 --> 11:28.750
Et puis, comme ce qui a été représenté par ce qui se passe 80% du temps.

11:28.750 --> 11:33.280
Et puis ce nouveau vient de ce qui est arrivé en raison du hasard.

11:33.280 --> 11:39.610
Dans ce cas, nous allons jeter celui qui est responsable de la majeure partie de la situation et nous allons

11:39.760 --> 11:43.900
le remplacer par quelque chose qui n'arrive que 10 ou 20% du temps.

11:43.900 --> 11:50.650
Ce ne serait pas la meilleure approche et c'est pourquoi c'est exactement pourquoi nous ne voulons pas changer complètement

11:50.650 --> 11:51.990
les valeurs d'Opu.

11:52.060 --> 11:56.890
Nous voulons utiliser comme changer pas à pas, petit à petit.

11:56.890 --> 12:01.980
Et c’est pourquoi nous allons utiliser cette différence temporelle d’une manière spécifique et nous allons dire: Voici

12:02.020 --> 12:05.080
une formule qui va nous aider à choisir SNH.

12:05.560 --> 12:07.120
Et nous allons le mettre à jour de telle manière.

12:07.120 --> 12:12.450
Nous allons prendre l'ancienne valeur de guérison Senay et nous allons ajouter les cinq fois la

12:12.460 --> 12:13.380
différence temporelle.

12:13.420 --> 12:15.730
Donc, Alpha va apprendre tout droit.

12:15.730 --> 12:17.410
C'est un nouveau paramètre que nous introduisons.

12:17.410 --> 12:20.070
C'est la rapidité d'apprentissage de l'algorithme.

12:20.080 --> 12:26.390
Donc, fondamentalement, nous prenons cette différence et peu importe ce que nous ajoutons à notre précédent serpent

12:26.480 --> 12:27.210
KJo.

12:27.220 --> 12:31.970
Maintenant, cette formule n’a probablement aucun sens ou le simple fait de regarder n’a pas de sens parce que vous avez

12:31.970 --> 12:34.040
Covisint ici et nous donnez un A ici.

12:34.060 --> 12:39.460
C'est la même chose, donc nous devrions probablement nous nier, mais nous avons dû réécrire cela d'une manière un

12:39.460 --> 12:40.090
peu différente.

12:40.390 --> 12:44.080
Donc, je vais vous montrer à nouveau que j'ajoute simplement du temps à ces formules.

12:44.090 --> 12:48.070
Donc voici q t moins une les années précédentes.

12:48.070 --> 12:49.780
Q T moins 1 les années précédentes.

12:49.780 --> 12:56.080
Q T Le Nouveau cela devrait être un cercle ici dans le cercle ici aussi mais peu importe et ici obtenir une différence

12:56.080 --> 12:56.750
temporelle alpha.

12:56.810 --> 12:58.750
Ensuite, vous la différence temporelle actuelle.

12:58.750 --> 13:01.190
Donc, vous pouvez voir ce que nous faisons, nous disons.

13:01.220 --> 13:04.200
OK prenons notre courant.

13:04.240 --> 13:10.880
Q sera égal à tous les Q précédents, quelle que soit la différence temporelle constatée, nous avons trouvé Times Alpha.

13:11.150 --> 13:16.330
Cette formule représente le cœur et l’âme de l’algorithme d’apprentissage du cube.

13:16.330 --> 13:18.250
Voici comment le cube est ou met à jour.

13:18.280 --> 13:24.460
Et c’est bien que nous ayons déjà appris quelles valeurs q sont ce qu'est le gamma et ce que sont toutes

13:24.460 --> 13:25.300
ces choses.

13:25.420 --> 13:31.740
Et maintenant, tout ce que nous devons voir, c'est que vous avez une valeur Q antérieure.

13:31.990 --> 13:37.870
Et puis, ce qui peut arriver, c’est que lorsque vous réagissez lorsque vous agissez réellement lorsque l’agent agit,

13:37.870 --> 13:42.530
vous saurez qu’il obtiendra une récompense et qu’il se retrouvera dans un état critique.

13:42.610 --> 13:46.400
Et donc sur cette base, il peut calculer Aha.

13:46.420 --> 13:53.220
OK alors quelle est ce qui aurait ce qui aurait dû être la valeur Q de ce mouvement que j'ai fait.

13:53.530 --> 13:56.390
Et maintenant, c'est cette partie de l'équation.

13:56.470 --> 14:02.870
Soustraire l'ancienne valeur Q vous donne une différence temporelle et vous devez maintenant prendre une différence d'échantillon de temps Alpher et

14:02.920 --> 14:05.410
c'est comme ça que vous vous réglez.

14:05.430 --> 14:06.370
Q Vous avez c'est ce que vous voulez dire.

14:06.370 --> 14:10.240
Je pense juste que vous passez et maintenant juste pour finir ceci.

14:10.240 --> 14:14.890
C’est un peu comme si c’était suffisant pour comprendre ce qui se passait mais juste pour clarifier

14:14.890 --> 14:18.370
les choses encore plus ou peut-être confondre les choses encore plus.

14:18.460 --> 14:23.320
Que devons-nous faire pour prendre cette différence temporelle ou cette simple différence ou ici un moyen de la brancher

14:23.320 --> 14:24.180
dans ce format.

14:24.190 --> 14:29.840
Nous allons donc prendre toute cette partie et la brancher dans cette formule pour aboutir à une énorme équation.

14:29.920 --> 14:31.490
Alors on y va.

14:31.660 --> 14:32.590
Voilà notre équation.

14:32.590 --> 14:38.470
C'est donc l'équation complète avec la différence temporelle écrite complètement.

14:38.560 --> 14:43.690
Et la raison pour laquelle je l'ai écrit aussi tout d'abord, vous le trouverez probablement dans

14:43.690 --> 14:45.560
d'autres publications si vous l'étudiez.

14:45.730 --> 14:50.810
Et la deuxième chose est que cela rend certaines choses un peu plus complexes a des formules plus longues mais rend aussi

14:50.810 --> 14:52.300
certaines choses un peu plus claires.

14:52.300 --> 14:55.940
Ainsi, par exemple, vous pouvez voir ici le rôle joué par Alpha.

14:55.960 --> 14:58.310
Vous pouvez le voir mieux parce que regardez cela.

14:58.320 --> 14:58.860
Ici.

14:58.900 --> 15:01.410
Q T moins un et c'est parti.

15:01.420 --> 15:03.760
Q T moins un avec un signe négatif.

15:03.760 --> 15:12.170
Donc, si vous connectez Alpha égal à 1 si vous mettez un 1 ici, cela annulera ceci.

15:12.190 --> 15:16.170
Donc, ils vont se détruire et tout ce qui vous reste est cette partie.

15:16.480 --> 15:23.080
Et ce que cela signifie, c’est exactement la situation dans laquelle nous nous sommes dit d’accord pour que vous ayez une nouvelle

15:23.140 --> 15:24.750
valeur qu’elle aurait dû être.

15:24.850 --> 15:29.570
Mettons à jour notre valeur Q avec la nouvelle valeur et oublions ce que nous avions précédemment.

15:29.710 --> 15:35.470
Et comme nous en avons discuté, ce n’est pas la meilleure approche car il ya des événements aléatoires et nous souhaitons mettre à jour

15:35.470 --> 15:36.820
les choses étape par étape.

15:37.530 --> 15:43.590
Et d’autre part, si vous dites Alpher égal à zéro, c’est que vous oubliez complètement toute cette partie

15:43.590 --> 15:48.960
et que vous êtes mignon: la nouvelle ou la version actuelle sera toujours égale à la

15:48.960 --> 15:51.720
précédente, vous êtes ne va rien apprendre.

15:51.720 --> 15:56.730
Et cela signifie que peu importe ce qui se passe dans le labyrinthe, cela n'a pas d'importance, car vous avez décidé de valoriser votre valeur pour

15:56.730 --> 15:58.940
Kuchi il y a longtemps et vous allez simplement la garder.

15:59.230 --> 16:03.200
C’est la raison pour laquelle Alfas ne devrait pas être égal à 0 ou être placé entre les deux.

16:03.240 --> 16:09.330
Et cela va vous permettre d'apprendre lentement, pas à pas, de vous permettre, à vous ou à l'agent, de passer

16:09.360 --> 16:12.720
à travers le labyrinthe, ce qui entraînera une différence temporelle.

16:12.960 --> 16:19.530
Et lentement mais sûrement, cette valeur sera mise à jour et mise à jour par ibed

16:19.680 --> 16:25.440
et ce qui se passera finalement, c’est qu’à un moment donné, l’algorithme converge.

16:25.710 --> 16:30.960
Et cela signifie que cette différence temporelle commencera à se rapprocher de plus en plus de

16:30.960 --> 16:37.860
zéro et finira par bien devenir très proche de zéro ou même de 0 0 0 0 et que cela

16:37.860 --> 16:43.050
signifie que chaque fois que votre nouvelle valeur en terme ou votre valeur calculée.

16:43.350 --> 16:44.430
Ce que ça aurait dû être.

16:44.440 --> 16:49.950
Donc, pas celui-ci, mais ce qui devrait être suffisant en théorie pour faire le pas sera juste égal à votre

16:49.950 --> 16:51.030
valeur Q2 précédente.

16:51.030 --> 16:55.650
Et puis, une valeur nulle et qui signifie que lorsque votre différence de température est

16:56.070 --> 17:02.720
égale à zéro, votre algorithme a convergé et qu'il n'est pas vraiment nécessaire de continuer à mettre à jour ce qui se passe.

17:02.720 --> 17:06.270
Il effectue cette recherche pour continuer à mettre à jour vos valeurs de cube.

17:06.270 --> 17:12.780
La mise en garde ici est que la seule fois probablement l'un des seuls moments où vous voudriez toujours continuer à

17:12.810 --> 17:19.140
exécuter tout ce que vous savez, mettez à jour les valeurs des files d'attente si l'environnement est en constante évolution.

17:19.170 --> 17:23.100
Si ce n’est pas simplement ce n’est pas le cas, il présente quelques aléas par rapport aux événements Kostic.

17:23.220 --> 17:28.750
Mais l'environnement lui-même est en train de se modifier, tout comme le morphing change avec le temps.

17:29.040 --> 17:34.260
Vous devez donc continuellement apprendre, car il vous est impossible de tout apprendre et de

17:34.260 --> 17:39.210
définir la stratégie optimale, car les stratégies optimales évoluent également en permanence avec l'environnement.

17:39.240 --> 17:44.730
Dans ce cas, vous devrez continuer CALKIN et la différence temporelle et calculer les valeurs Q.

17:44.730 --> 17:46.830
Mais à part ça, c'est un peu comme une complication supplémentaire.

17:46.830 --> 17:53.370
Cela mis à jour, Q est la formule principale de l’algorithme d’apprentissage Q. C’est un peu la version

17:54.090 --> 17:59.490
agrandie de cet algorithme. À présent, tout devrait être cohérent et comprendre pourquoi nous

17:59.490 --> 18:05.250
avons l’équation de Belman et non seulement ce qu'il représente, mais aussi la manière dont

18:05.250 --> 18:12.870
l'agent procède pour mettre à jour ses valeurs et trouver exactement ce qui se passe dans cet environnement afin qu'il puisse

18:12.870 --> 18:14.620
élaborer la politique optimale.

18:14.640 --> 18:21.570
Donc, je connais pas mal de choses à assimiler, mais j'espère que vous avez apprécié ce tutoriel et

18:21.570 --> 18:28.680
que vous êtes capable de supprimer les concepts sous-jacents et l'intuition qui sous-tendent vos valeurs. Quelle est donc la

18:28.680 --> 18:36.990
notion de différence temporelle et pourquoi il est important de nous aider à former lentement notre agents et les amener à comprendre leurs

18:37.050 --> 18:39.230
environnements dans lesquels ils opèrent.

18:39.270 --> 18:45.540
Et si vous souhaitez en savoir un peu plus sur les différences temporelles, un

18:45.540 --> 18:52.470
article très populaire apprend à prédire par les méthodes des différences temporelles de Richard Sutton en 1984.

18:52.620 --> 18:57.060
Nous avons déjà eu une référence de Richard Sutton également, mais il s’agit

18:57.060 --> 19:04.620
d’un autre ouvrage qui contient un livre. Par conséquent, si vous connaissez bien son style d’écriture et son style de communication, consultez également

19:04.620 --> 19:05.660
son livre.

19:05.810 --> 19:08.630
C'est un peu comme une version plus étendue de toutes ces choses.

19:08.640 --> 19:12.820
Je n'ai pas lu le livre mais c'est ce que j'imagine en même temps.

19:12.960 --> 19:19.530
Cela va ajouter au papier et vous pouvez en apprendre un peu plus ou probablement beaucoup plus sur

19:19.530 --> 19:21.050
les différences temporelles là-bas.

19:21.300 --> 19:22.950
Et j'espère que vous avez aussi apprécié.

19:23.060 --> 19:24.270
On se voit la prochaine fois.

19:24.270 --> 19:26.250
Jusque-là, profitez de l'IA.