WEBVTT

00:00.650 --> 00:05.690
Bonjour et bienvenue au cours sur un I, dans la partie précédente, nous avons parlé de l’apprentissage en

00:05.750 --> 00:08.360
profondeur de l’intuition Killary que nous avons commencée ici.

00:08.360 --> 00:14.900
Et en fait, nous sommes arrivés à cette partie et nous avons parlé d'apprentissage et nous

00:14.900 --> 00:18.200
allons maintenant passer à la partie intérimaire.

00:18.200 --> 00:22.250
Il y a donc deux parties distinctes dont nous devons nous souvenir.

00:22.250 --> 00:25.520
C'est donc la partie apprentissage, mais maintenant il a fait tout cela.

00:25.520 --> 00:26.390
C'est beau.

00:26.390 --> 00:30.500
Maintenant, il doit en fait prendre des mesures, il doit décider ce qu'il va faire, il va faire les actions

00:30.500 --> 00:31.710
un deux, trois ou quatre.

00:31.740 --> 00:32.860
Et alors, comment fait-il cela?

00:33.020 --> 00:39.370
Eh bien, comme il le fait, on lui donne maintenant les mêmes valeurs, de sorte que les valeurs ne changent pas une fois que nous avons ces

00:39.370 --> 00:43.430
valeurs de comparaison avec Calcott les deux dernières années, nous avons mis à jour les poids mais

00:43.430 --> 00:45.950
les valeurs ne changent pas. changer dans tout ce processus.

00:45.990 --> 00:47.410
Pour avoir les valeurs du cube ici.

00:47.430 --> 00:48.380
Ils sont réparés.

00:48.380 --> 00:49.440
Nous savons ce qu'ils sont.

00:49.440 --> 00:50.480
Tout cela arrive cependant.

00:50.510 --> 00:53.820
Les réseaux sont mis à jour et utilisent les mêmes valeurs que nous.

00:53.960 --> 00:58.600
Ce que nous allons faire, c'est les analyser via une fonction soft max.

00:58.610 --> 01:00.580
Et encore doux Max comme décrit.

01:00.620 --> 01:05.160
Je pense une annexe 2 et nous allons parler un peu plus sur soft max.

01:05.180 --> 01:12.070
Nous parlerons plus loin de cette politique de sélection des actions plus loin dans le reste de cette section.

01:12.140 --> 01:13.610
Donc, juste dans quelques tutoriels.

01:13.730 --> 01:17.270
Mais pour l'instant, nous allons simplement dire que nous passons à travers une fonction douce suivante.

01:17.270 --> 01:22.150
En gros, cela permet d’aider à choisir la meilleure action possible.

01:22.250 --> 01:23.650
Et il y a une petite mise en garde à cela.

01:23.660 --> 01:26.120
Ce n'est pas seulement le meilleur possible.

01:26.120 --> 01:28.940
Nous en parlerons dans le tutoriel sur les règles de sélection d'actions.

01:28.940 --> 01:35.890
Mais pour l'instant disons simplement qu'il sélectionne la meilleure action à partir d'ici il dit OK, donc Q1 vous connaissez la probabilité.

01:36.140 --> 01:41.960
Fondamentalement, nous savons que les valeurs q ont prédit la valeur Q afin qu’il puisse les examiner et dire OK, donc la valeur

01:41.960 --> 01:46.280
Q la plus élevée de ces valeurs, comme nous l’avions fait dans l’algorithme d’apprentissage Q simple.

01:46.280 --> 01:50.240
Je vais juste regarder tout ça pour dire les valeurs les plus élevées, celle-là, je vais choisir l'action que nous

01:50.240 --> 01:50.860
allons entreprendre.

01:50.900 --> 01:52.180
Et c'est à peu près tout.

01:52.220 --> 01:57.300
C’est ainsi qu’il choisit l’action à entreprendre, puis tout ce processus se répète.

01:57.290 --> 02:02.120
Pour la prochaine étape, l'agent se retrouve dans notre cas et dans la prochaine case du labyrinthe.

02:02.120 --> 02:04.540
Mais d'une manière générale dans l'état suivant.

02:04.640 --> 02:05.420
Alors on y va.

02:05.420 --> 02:14.660
C'est ainsi que nous introduisons un problème d'apprentissage par renforcement dans un réseau de neurones par le biais d'un vecteur décrivant l'état dans lequel

02:14.660 --> 02:16.160
nous nous trouvons.

02:16.160 --> 02:17.510
Et une fois que nous y correspondons.

02:17.510 --> 02:22.210
Le processus comporte deux parties. La première partie est l'apprentissage.

02:22.400 --> 02:26.840
Souvenez-vous donc de la partie où nous comparons chacune des valeurs de cube à la cible, puis

02:26.840 --> 02:32.360
nous propagons la perte sur le réseau pour mettre à jour les pondérations, de sorte que notre réseau apprend au

02:32.360 --> 02:34.830
fil de ce labyrinthe ou de cet environnement.

02:35.210 --> 02:41.120
Et aussi la deuxième partie est bien sûr que nous devons agir, nous devons sélectionner une action et c’est là

02:41.120 --> 02:46.880
que nous transmettons les valeurs via une fonction soft max et / ou une politique de sélection d’action dont

02:46.880 --> 02:48.330
nous parlerons plus loin.

02:48.470 --> 02:53.570
Et ensuite, nous sélectionnons simplement l'action que nous voulons entreprendre et nous l'exécutons, puis tout le

02:53.570 --> 02:54.580
processus recommence.

02:54.770 --> 02:59.570
Et alors peut-être que l'agent obtient alors peut-être que l'agent ne met pas le jeu en pause.

02:59.630 --> 03:01.250
En tout cas, le jeu se termine.

03:01.250 --> 03:08.270
Et une fois de plus, tout le processus se répète et l’agent répète l’ensemble du jeu, puis s’arrête. C’est donc un autre

03:08.270 --> 03:14.460
airpark chaque fois que l’agent que vous connaissez se termine à chaque fois avec une faveur au-delà des fées

03:14.460 --> 03:16.680
qui est la fin d’un aéroport.

03:16.700 --> 03:19.560
Et puis il recommence, puis il recommence, puis il recommence.

03:19.790 --> 03:20.420
Etc.

03:20.420 --> 03:26.810
Donc, cela se produit et ce processus se produit à chaque fois que l'agent

03:26.810 --> 03:32.240
se trouve dans un nouvel état, de sorte que l'état est codé

03:32.240 --> 03:33.020
ici;

03:33.020 --> 03:38.030
Il est donc dans un état qui passe par ses dates de processus et ainsi de suite et se produit à chaque fois.

03:38.150 --> 03:41.410
Et si l'apprentissage se produit et le jeu d'acteur se passe aussi bien.

03:41.720 --> 03:47.090
Il s’agit donc d’un apprentissage en profondeur dans l’intuition qui sous-tend un apprentissage en profondeur.

03:47.090 --> 03:54.200
Nous avons beaucoup plus à couvrir et bien sûr pratique et entre-temps, si vous souhaitez obtenir des informations supplémentaires

03:54.410 --> 03:56.720
sur la poursuite de l’apprentissage.

03:56.720 --> 04:05.200
Nous avons une lecture recommandée, nous avons donc déjà parlé de la série d'articles de blog d'Arthur Giuliani.

04:05.210 --> 04:12.590
Si vous regardez l'apprentissage informel simple de la partie 4 de la séquence de Lifton, vous trouverez la partie qui correspond à ce

04:12.590 --> 04:14.260
dont nous avons discuté aujourd'hui.

04:14.270 --> 04:21.170
Notez qu'il parle ici de convolutions que nous ne couvrons pas de révolutions dans cette section, nous en parlerons

04:21.170 --> 04:23.650
dans la prochaine section du cours.

04:23.720 --> 04:28.880
Donc, la différence ici est que vous sautez un peu la partie des conclusions pour le moment et que nous

04:28.880 --> 04:32.850
en reparlerons dans la prochaine partie du cours, mais la différence réside dans les évolutions.

04:32.850 --> 04:39.170
Vous ressemblez à regarder l'agent regarder l'image et donc il doit traiter une image une complication supplémentaire pour

04:39.170 --> 04:43.540
le moment où nous sommes en train de construire progressivement cela.

04:43.580 --> 04:50.060
Pour l'instant, nous encodons notre environnement à travers vous regardez ici, nous encodons notre environnement

04:50.060 --> 04:58.700
ou peut-être regardons celui-ci probablement en codant notre environnement en tant que ou pour indiquer que l'agent est dans un vecteur.

04:58.700 --> 05:01.330
Donc, dans notre cas, était un vecteur très simple de valeurs.

05:01.490 --> 05:06.190
Parfois, même dans ce cas-là, les gens peuvent parfois ou comme vous le verrez dans ce billet de blog.

05:06.290 --> 05:10.180
Parfois, les gens préfèrent la seule version chaude et codée de cet état.

05:10.180 --> 05:13.380
Donc, fondamentalement, chaque boîte du labyrinthe a un.

05:13.620 --> 05:17.780
Donc, vous avez comme un vecteur de pour un cas nul serait 12 valeurs trois par quatre.

05:17.800 --> 05:22.130
Donc, ce n'est pas comme 1 ou 0 selon les éléments et les cases dans lesquelles vous vous trouvez.

05:22.160 --> 05:22.990
Dans l'environnement.

05:23.060 --> 05:29.900
Ainsi, quelle que soit la manière dont vous décidez de coder votre environnement et son état, c’est ainsi que le codage

05:29.900 --> 05:31.520
est fondamentalement un vecteur.

05:31.520 --> 05:36.410
La clé ici est que ce n'est pas une convolution Donc ce n'est pas comme une image et il n'y a pas de volte de

05:36.410 --> 05:37.810
convolution Donc cette partie viendra plus tard.

05:37.820 --> 05:43.410
Pour nous, cela commence ici et cela simplifie simplement le processus pour nous permettre de mieux comprendre progressivement.

05:43.550 --> 05:49.130
Et bien sûr, n'oubliez pas que ce message est grossier et a tendance à couler et que nous utilisons pi torche

05:49.130 --> 05:50.090
dans nos tutoriels.

05:50.090 --> 05:51.910
J'espère que cela vous plaira.

05:51.920 --> 05:59.220
Une introduction rapide dans un livre profondément convolutionnel, pas encore profond.

05:59.310 --> 06:02.910
Et sur cette note, j'ai hâte de vous revoir.

06:02.930 --> 06:05.430
Et jusque-là, profitez de l'intelligence artificielle.