WEBVTT

00:00.720 --> 00:03.210
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:03.210 --> 00:08.400
Aujourd'hui, nous parlons de la première partie de A-3 voir la partie critique d'acteur.

00:08.400 --> 00:10.540
Nous avons donc ici un avantage synchrone.

00:10.550 --> 00:12.380
Algorithme de critique d'acteur.

00:12.420 --> 00:15.440
Et nous allons parler de cet Akrotiri souligné.

00:15.570 --> 00:17.210
C'est par là que nous allons commencer.

00:17.400 --> 00:21.960
Vous pouvez techniquement commencer n'importe où, mais commencer par un critique est beaucoup

00:22.320 --> 00:29.640
plus logique, car ainsi, nous aurons une explication très consécutive de la compréhension intuitive de ce qui se passe nous facilitera

00:29.640 --> 00:30.470
la tâche.

00:30.480 --> 00:33.970
Mais si nous commençons encore à nous surprendre à la fin de cette aberration.

00:34.170 --> 00:41.840
Jusqu'ici, jusqu'à présent, dans ce cours, nous avons mis au point un apprentissage conditionnel approfondi de Kule qui est illustrateur. Nous avons

00:41.880 --> 00:48.780
donc l'ordinateur qui voit les pixels, de sorte que l'image réelle et les pixels ne sont pas qu'un vecteur.

00:48.780 --> 00:53.610
Donc, ce n'est pas tricher, mais de voir exactement ce qu'un humain voit, il voit les

00:53.610 --> 01:00.540
monstres, la santé, il voit les paramètres au bas de l'écran, il voit la carte ou le pistolet, c'est exactement la même chose qu'un

01:00.540 --> 01:03.080
humain verrait en jouant à cette carte. Jeu.

01:03.090 --> 01:09.450
Ensuite, cette image est transmise dans un repaire de convolution, puis dans un réseau de neurones puis,

01:09.450 --> 01:16.380
à la sortie, nous avons des actions qui nous rappellent que nous avons ces valeurs de cube, puis nous

01:16.380 --> 01:20.270
appliquons une politique de sélection des actions. pour eux.

01:20.270 --> 01:24.540
Ainsi, par exemple, nous appliquons un Max doux et nous découvrons quelle action nous voulons entreprendre.

01:24.540 --> 01:28.470
Et donc, il y a une exploration et une exploitation en cours.

01:28.470 --> 01:29.860
Il y a une combinaison des deux.

01:30.270 --> 01:33.480
C’est ainsi que fonctionne l’apprentissage cool par convolution profonde.

01:33.640 --> 01:34.980
Mais voyons maintenant ce que nous allons en faire.

01:34.970 --> 01:39.510
Donc, dans un souci de simplicité, pour que ce soit plus facile pour nous, c'est parce que

01:39.510 --> 01:41.770
nous allons ajuster cette image et la déplacer.

01:41.790 --> 01:46.490
Nous allons remplacer les cercles par des carrés par ces ou ces boîtes rectangulaires.

01:46.560 --> 01:53.190
Et nous allons également nous débarrasser de ces lignes et, entre elles, les changer en flèches pour que cela ne

01:53.190 --> 01:54.440
change pas l'essence.

01:54.450 --> 01:56.590
Ceci est juste la représentation sur ce tableau.

01:56.610 --> 02:01.620
C’est toujours même que cette représentation est encore profonde. L’apprentissage de Kule par convolution va être plus

02:01.620 --> 02:05.520
facile pour nous de le modifier et de montrer ce qu’il en est.

02:05.520 --> 02:08.820
Donc, c'est comme ça que nous allons représenter les choses d'ici.

02:08.820 --> 02:13.070
Et qu'est-ce que ou cette partie spécifique commence donc.

02:13.080 --> 02:16.680
Rappelez-vous que nous commençons comme étape par étape, nous commençons avec la partie critique active.

02:16.680 --> 02:23.490
Nous allons donc voir comment nous allons passer de l’apprentissage crucial de Kule à A-3. Nous allons vous présenter étape par étape et première

02:23.490 --> 02:27.520
étape la présentation de cet acteur critique PARTOVI afin que nous puissions en discuter.

02:27.750 --> 02:32.490
Donc, la première chose qui se passe est ce dernier bit.

02:32.640 --> 02:36.990
La sortie est en fait, nous allons simplement la redessiner de la sorte, c'est donc exactement la

02:36.990 --> 02:40.350
même sortie, les mêmes valeurs q correspondent exactement à la même action.

02:40.350 --> 02:45.810
Donc, s’il a eu huit actions possibles, il en reste huit, ce qui les placera au sommet, de

02:45.810 --> 02:50.280
sorte qu’ils prennent moins de place et que rien n’a été modifié jusqu’à présent.

02:50.280 --> 02:52.080
Ceci et ceci sont exactement les mêmes.

02:52.080 --> 02:55.080
Mais maintenant, c’est là que la partie critique active entre en jeu.

02:55.110 --> 02:56.580
Nous allons avoir une deuxième sortie.

02:56.580 --> 03:02.460
Nous allons avoir le premier comme un ensemble de sorties et ici nous aurons une sortie individuelle

03:02.460 --> 03:06.040
distincte donc techniquement nous allons utiliser notre réseau de neurones.

03:06.040 --> 03:08.310
Donc une fois par heure.

03:08.340 --> 03:14.720
Ou bien l’image et tout ce qui est comme les valeurs passent par le réseau de gauche à droite ici.

03:14.730 --> 03:17.910
Ils ne crachent pas seulement un ensemble de valeurs, ils crachent en fait deux ensembles.

03:17.910 --> 03:23.910
Et donc le sommet a dit que nous savions vraiment ce que c'était, que ce sont des actions possibles, mais

03:23.910 --> 03:26.970
ici, nous allons avoir une valeur supplémentaire, alors regardons cela.

03:27.000 --> 03:28.430
Quelle est cette valeur.

03:28.620 --> 03:31.260
Alors voila c'est le top.

03:31.380 --> 03:35.190
Nous avons donc un peu réduit la taille de cette illustration.

03:35.340 --> 03:41.210
Les meilleurs résultats sont les valeurs de cube telles que décrites précédemment pour les actions.

03:41.220 --> 03:42.500
Donc, ils sont la même chose.

03:42.510 --> 03:43.240
Tout est pareil.

03:43.410 --> 03:47.640
Mais alors maintenant cette partie inférieure et la partie supérieure s'appelle réellement le X ou nous

03:47.640 --> 03:53.400
allons lui donner un nom qui est l'acteur parce que c'est la partie où l'agent choisit ce qu'il veut faire pour qu'il

03:53.400 --> 03:59.160
agisse comme si c'était comme si ça se produira sur scène et cela aura plus de sens une fois que nous aurons

03:59.160 --> 04:00.730
le deuxième nom à l'écran.

04:00.900 --> 04:08.120
Et puis la deuxième sortie est juste comme une valeur et c'est V of S donc c'est la valeur de l'état.

04:08.130 --> 04:16.800
Donc, si q de S, le QA est la valeur q d'une action donnée et, comme vous pouvez le constater, c'est la raison pour laquelle il y a action une

04:16.980 --> 04:21.450
action deux actions trois peuvent atteindre l'action six ou des actions de signification supérieure dans cet

04:21.450 --> 04:22.030
état.

04:22.030 --> 04:28.410
Donc, dans un état donné, quelle est la valeur q de passer d’une action à une action, etc.

04:28.460 --> 04:34.900
Ensuite, ici, nous prédisons également que nous utilisons également le réseau de neurones pour prédire quelle est

04:34.900 --> 04:40.620
la valeur de l’étape dans laquelle nous nous trouvons et cette partie s’appelle le critique.

04:40.820 --> 04:47.070
Et c’est donc l’intuitif pour le genre d’intuitif même pas complètement intuitif qui est comme le début de l’intuition derrière

04:47.880 --> 04:53.260
un acteur prédisent qu’il ya maintenant deux sorties du réseau de neurones et non une seule.

04:53.380 --> 04:56.470
P avant que nous ayons juste eu celui-là à outbred que nous appelons maintenant l'action.

04:56.470 --> 04:59.040
Mais maintenant nous avons deux sorties Akshara et critique.

04:59.250 --> 05:02.320
Et il y a une dynamique entre eux que nous explorerons plus en profondeur.

05:02.370 --> 05:08.850
Mais pour le moment, il est important de comprendre que nous ne prédisons pas uniquement les valeurs des actions que l'agent peut effectuer

05:09.330 --> 05:14.100
à partir de l'état actuel, mais également la valeur d'être dans ce type d'état en utilisant le

05:14.100 --> 05:15.750
réseau de la même année.

05:15.750 --> 05:20.700
Voilà donc le cœur de la première étape de la critique active.

05:20.790 --> 05:24.990
Et nous allons maintenant avoir besoin de parler d'un synchrone que nous ferons dans le prochain

05:24.990 --> 05:30.900
tutoriel afin de comprendre exactement ce qui se passe entre le devoir et la chose finale d'aujourd'hui: toutes ces valeurs clés, comme nous

05:30.900 --> 05:32.640
le savons, s'appellent également Pulse. .

05:32.640 --> 05:39.720
Ainsi, dans certains ouvrages de blogs et dans certaines discussions que vous pourriez trouver dans la critique active,

05:39.720 --> 05:47.400
vous trouverez peut-être que l'auteur parle des valeurs de Cue du côté de l'acteur dans d'autres écrits, blogs et discussions,

05:47.400 --> 05:53.780
vous trouverez l'agrah de l'auteur. Parler de la politique ainsi et habituellement est utiliser l'utilisateur comme une

05:53.860 --> 05:59.810
lettre grecque P pour représenter la politique ou simplement dire la politique de l'état.

05:59.970 --> 06:05.790
Donc, dans l’ensemble, il s’agit de la politique d’état car c’est parce que, si nous nous

06:05.790 --> 06:11.660
souvenons de nous, que si vous mettez toutes les actions ensemble, vous pouvez décider des actions à prendre.

06:11.660 --> 06:15.400
Donc, ce sera comme les probabilités de prendre chaque mesure, c'est donc la politique.

06:15.540 --> 06:19.410
Alors ne soyez pas éjecté si vous voyez l'un ou l'autre.

06:19.410 --> 06:21.090
Ils signifient fondamentalement la même chose.

06:21.090 --> 06:24.720
Donc, d’un côté, vous avez la politique ou les valeurs q, de l’autre, vous avez la

06:24.720 --> 06:27.620
valeur réelle de l’état et on le prévoit pour cette année.

06:27.750 --> 06:31.770
C'est donc le début de la critique active qui continuera dans le prochain tutoriel lorsque nous

06:31.770 --> 06:34.320
parlerons d'un synchrone et que nous cherchons à le voir.

06:34.380 --> 06:35.910
Jusque là profitez du.