WEBVTT

00:01.400 --> 00:02.990
Salut et bienvenue.

00:03.320 --> 00:08.930
Dans le dernier cours, nous avons fini ou finalisé la définition proprement dite de notre environnement,

00:08.930 --> 00:14.090
la représentation de nos valeurs, nos punitions en récompenses, et nos actions dans l'environnement.

00:14.450 --> 00:20.510
Dans cette conférence, ce que je veux faire est de présenter la formation, l'idée derrière la façon de former le

00:20.510 --> 00:22.730
modèle et de vous aider à démarrer.

00:22.910 --> 00:28.340
Et puis, dans la conférence suivante, fournissez la solution et plus d'une ventilation pour les étapes impliquées.

00:28.610 --> 00:32.660
Nous devons donc former le modèle à ce qui serait requis de la formation.

00:33.620 --> 00:38.750
Il s'agit d'une approche que nous pouvons utiliser pour les étapes suivantes de formation du modèle.

00:38.750 --> 00:44.180
Nous voulons choisir un état aléatoire non terminal, qui serait le carré blanc de notre agent, et c'est ainsi

00:44.180 --> 00:46.880
que nous voulons commencer dans notre épisode d'entraînement.

00:47.330 --> 00:50.300
Nous voulons alors bien sûr choisir une action pour l'état actuel.

00:50.300 --> 00:53.030
Nous devons avoir notre agent capable de se déplacer dans l'environnement.

00:53.210 --> 00:59.150
Ainsi, les actions pour nous et notre agent dans ce défi seront choisies en utilisant le grec Epsilon.

00:59.780 --> 01:04.730
Cet algorithme choisira généralement l'action la plus prometteuse pour l'agent, mais choisira parfois une

01:04.730 --> 01:05.810
option moins prometteuse.

01:05.810 --> 01:10.580
Afin d'encourager l'agent à explorer l'environnement, nous voulons vraiment trouver la politique optimale.

01:11.300 --> 01:14.960
Ensuite, nous voulons effectuer l'action choisie et passer à l'état suivant.

01:15.200 --> 01:16.340
Passez à l'emplacement suivant.

01:16.550 --> 01:21.200
Et pourquoi je dis cela, c'est que je veux que vous réfléchissiez à la façon dont vous pouvez décomposer cela

01:21.200 --> 01:22.760
en fonctions pour résoudre ce problème.

01:23.540 --> 01:29.390
Ensuite, nous devons recevoir une récompense pour passer à un nouvel état, puis calculer la différence temporelle.

01:29.750 --> 01:35.480
Nous devons mettre à jour la valeur Q pour la paire d'état et d'action précédente, et si la nouvelle devise est un état

01:35.480 --> 01:37.280
terminal, nous passerions alors à un.

01:37.610 --> 01:39.200
Sinon, nous passerions à l'étape numéro deux.

01:39.470 --> 01:43.400
Donc, tout le processus, nous allons viser à courir pendant mille épisodes pour nous entraîner.

01:43.670 --> 01:50.750
Cela va nous donner suffisamment d'opportunités ou à notre agent suffisamment d'opportunités pour calculer le chemin le plus court entre

01:50.750 --> 01:55.520
la zone d'emballage de l'article et d'autres emplacements dans notre ville d'exemple.

01:56.540 --> 01:57.020
Génial.

01:57.530 --> 02:02.840
Alors s'il vous plaît, réfléchissez à la façon dont vous abordez cela et je veux vous aider à vous donner une idée pour essayer de résoudre ce problème.

02:03.050 --> 02:07.970
Nous examinerons donc dans notre solution, nous allons utiliser les fonctions suivantes.

02:08.540 --> 02:11.540
Je peux en fait commenter cela puisque c'est un code, donc mes excuses.

02:11.960 --> 02:13.070
Nous ne voulons pas de signe dollar.

02:13.310 --> 02:17.990
Nous voulons les commenter et je vais vous aider à démarrer sur le premier.

02:18.990 --> 02:25.650
Dans l'ensemble, ces fonctions définiront nos étapes de formation du modèle et vous aideront à

02:25.650 --> 02:26.470
démarrer.

02:26.490 --> 02:31.440
Voyons comment nous aborderions l'état terminal en créant une fonction dans python pour cela.

02:31.800 --> 02:36.150
Tout d'abord, nous voudrions bien sûr définir notre fonction telle quelle.

02:37.640 --> 02:39.230
Etat terminal.

02:40.670 --> 02:44.630
Et ce sont les noms des fonctions que vous verrez pour vous donner une idée qui pourrait vous aider à

02:44.630 --> 02:45.050
le décomposer.

02:45.500 --> 02:50.870
Ce que nous voulons faire, c'est prendre l'index de ligne actuel et l'index de colonne actuel.

02:52.980 --> 03:01.440
Cela va aider à nous donner la position de notre agent, et nous pouvons ajouter ici pour nos récompenses un vrai ou un

03:01.440 --> 03:02.000
faux.

03:02.010 --> 03:02.610
Nous en avons donc besoin.

03:03.150 --> 03:05.490
Alors fixons nos si nos récompenses.

03:07.430 --> 03:08.300
De notre courant.

03:09.410 --> 03:11.270
Indice de ligne.

03:12.510 --> 03:13.260
Et actuel.

03:14.040 --> 03:19.890
Index de colonne égal à moins un s'ils sont dans cet état.

03:24.330 --> 03:28.200
Nous renverrions faux ou autrement ou bien.

03:29.880 --> 03:30.690
Nous reviendrions.

03:31.500 --> 03:31.830
Vrai.

03:33.620 --> 03:34.670
Assez simple.

03:35.450 --> 03:41.360
Et c'est ainsi que nous allons avoir notre idée de notre état terminal après avoir s'il existe dans l'état

03:41.360 --> 03:44.090
terminal, nous voulons alors obtenir l'emplacement de départ.

03:44.270 --> 03:50.660
À titre indicatif, vous pouvez jeter un œil à l'utilisation de l'index de ligne actuel dans l'index de colonne actuel

03:50.660 --> 03:52.730
et définir numpy avec un random.

03:52.730 --> 03:56.960
Nous voulons initialiser cela de manière aléatoire aux colonnes d'environnement des lignes d'environnement.

03:57.290 --> 04:00.590
Mais dans la prochaine conférence, vous verrez une ventilation.

04:00.590 --> 04:04.520
Vous verrez le reste des fonctions avec quelques notes pour vous donner une idée.

04:04.880 --> 04:08.960
J'espère vraiment que vous saisirez l'occasion d'expérimenter cela, car c'est juste une excellente façon d'apprendre, de

04:08.960 --> 04:12.050
vous donner une idée et c'est pour vous aider à démarrer.

04:12.260 --> 04:15.080
Alors ne vous inquiétez pas, vous aurez la solution dans la prochaine leçon.

04:15.320 --> 04:21.730
Et puis nous allons conclure en attribuant un excellent facteur de remise à l'apprentissage de ce genre de choses pour

04:21.800 --> 04:25.490
la formation, l'exécution de la formation et la visualisation des résultats.

04:26.030 --> 04:26.660
Génial.

04:27.380 --> 04:29.360
Arrêtons-nous ici encore.

04:29.750 --> 04:30.830
Essayez de résoudre ce problème.

04:30.830 --> 04:35.360
Mais sinon, si vous voulez simplement avancer, passez au cours suivant et vous aurez la solution

04:35.360 --> 04:37.910
pour la formation à la définition de ces fonctions.

04:38.450 --> 04:40.130
Très bien, je vous verrai les gars dans la prochaine conférence.