WEBVTT

00:00.210 --> 00:01.860
Hallo en welkom bij deze tutorial.

00:02.250 --> 00:06.960
OK, dus we hebben zojuist de entropie berekend en toegevoegd aan de attributenlijst

00:06.960 --> 00:12.440
en nu gaan we een willekeurige trekking van een actie doen volgens de kansverdeling van de softmax.

00:13.050 --> 00:14.430
Dus laten we dit doen.

00:14.460 --> 00:15.450
Dat is de volgende stap.

00:15.720 --> 00:19.560
We zijn nog steeds in de lus omdat we hier nog steeds op de trappen rennen.

00:19.950 --> 00:22.260
En dus weet je nu hoe je de actie moet spelen.

00:22.410 --> 00:28.560
We zullen eerst een variabele introduceren voor de actie genaamd actie, en dan

00:28.560 --> 00:37.320
nemen we onze kansverdeling en we gaan de multi Gnomeo-functie gebruiken om een willekeurige trekking uit deze kansverdeling te

00:37.320 --> 00:38.160
nemen.

00:39.030 --> 00:46.590
En dan voegen we die gegevens toe, dus het is belangrijk op te merken dat de actie eigenlijk een Tenzer zal zijn met slechts

00:46.590 --> 00:50.690
één waarde, maar je moet dit niet als een eenvoudige waarde zien.

00:50.820 --> 00:56.980
Je zou dit moeten zien als een sensor, een dimensie is één voor één die deze waarde voor de actie bevat.

00:57.000 --> 00:58.770
En dat komt omdat het niet geperst is.

00:59.580 --> 01:08.850
En nu nog steeds in dezelfde lus, krijgen we de vertragingskans die is gekoppeld aan de actie die werd

01:08.850 --> 01:09.530
weergegeven.

01:09.990 --> 01:16.740
En dus dateer ik mijn liefdeswaarschijnlijkheid hier door de vorige te nemen, het vorige slotprobleem dat we hier

01:16.740 --> 01:17.760
hebben berekend.

01:18.060 --> 01:26.070
En dan ga ik de andere methode gebruiken waaraan ik er een ga invoeren en de actie die werd weergegeven,

01:26.070 --> 01:31.070
omdat we de vergrendelingswaarschijnlijkheid willen krijgen die aan deze actie is gekoppeld.

01:31.320 --> 01:35.010
En dus als het tweede argument hier, ga ik mijn actie invoeren.

01:35.340 --> 01:41.730
Maar er moet een martelvariabele zijn zoals vereist door de verzamelde functie en de verzamelde functie, alleen

01:41.730 --> 01:43.740
indexen met het tensor-geheel getal.

01:44.370 --> 01:44.700
Oke.

01:44.700 --> 01:48.630
Dus nu hebben we zojuist de vergrendelingsprob gekregen die is gekoppeld aan de actie die werd weergegeven.

01:48.810 --> 01:53.480
En nu is de volgende stap om toe te voegen wat we hebben aan de lijst hier.

01:53.640 --> 01:55.260
Dus we hebben de waarde.

01:55.590 --> 01:58.320
Dat is wat we hier hebben als de output van het model.

01:58.710 --> 02:00.690
Toen kregen we ook het slotprobleem.

02:00.750 --> 02:03.630
Dus we gaan het slot toevoegen aan de lijst met slot misschien.

02:04.020 --> 02:07.350
We hebben de entropie al toegevoegd aan de entropieën, dus we zitten goed.

02:07.590 --> 02:09.440
En de beloningen, die krijgen we achteraf.

02:09.540 --> 02:14.840
Dus we zullen nu de waarde en het slot toevoegen aan de waardenlijst en het slot misschien lijst.

02:15.360 --> 02:16.140
Laten we dit doen.

02:16.140 --> 02:17.790
We nemen onze waardenlijst.

02:17.970 --> 02:24.450
We voegen eraan toe dat we de append-functie gebruiken en we voegen de waarde toe die zojuist door het model is geretourneerd.

02:24.810 --> 02:25.380
Perfect.

02:25.890 --> 02:28.230
Dan hetzelfde voor de logprobs.

02:28.710 --> 02:35.450
We hebben net onze nieuwe laptops en we gaan deze uitbreiden naar de log probusiness.

02:36.000 --> 02:40.470
En dus voeren we in deze append-functie log in vanuit ons geluk.

02:40.740 --> 02:42.400
Dat is hier net berekend.

02:43.800 --> 02:44.220
Oke.

02:44.230 --> 02:46.710
Dus onze lijsten zijn nu goed bijgewerkt.

02:47.190 --> 02:52.530
Dus wat we nu gaan doen is de actie spelen, want eigenlijk hebben we hier de actie

02:52.770 --> 02:56.340
geselecteerd door een willekeurige trekking te doen uit deze kansverdeling hier.

02:56.520 --> 02:58.170
Maar eigenlijk hebben we het nog niet gespeeld.

02:58.320 --> 03:04.590
En we gaan het nu spelen zodat we de nieuwe staat kunnen bereiken en dus de nieuwe overgang kunnen krijgen.

03:05.010 --> 03:10.020
En om het te spelen, nemen we onze omgeving omdat we de actie in onze omgeving

03:10.380 --> 03:12.720
spelen, dan gaan we de stapmethode gebruiken.

03:13.050 --> 03:17.760
En binnenin specificeren we de actie die is geselecteerd om het te spelen.

03:18.000 --> 03:24.180
En om dit te doen, ondernemen we onze actie en voegen we dat getal toe met omdat dat is wat wordt verwacht door

03:24.180 --> 03:24.840
de stapfunctie.

03:25.530 --> 03:27.390
Oké, maar dit komt terug.

03:28.680 --> 03:37.170
Eigenlijk de nieuwe staat en ook de nieuwe beloning, want door een nieuwe staat te bereiken, krijgen we een nieuwe beloning en krijgen we ook

03:37.680 --> 03:42.780
nieuwe waarde voor Dunn om te weten of het spel klaar is of niet.

03:43.320 --> 03:43.740
Oke.

03:43.750 --> 03:45.970
Dus hiermee spelen we de actie.

03:45.990 --> 03:49.840
We hebben een nieuwe staat bereikt en we krijgen een nieuwe beloning en we weten of we klaar zijn met het spel.

03:50.310 --> 03:55.590
En als we het hebben over klaar zijn met het spel, nou, we gaan hier gewoon iets toevoegen dat

03:55.590 --> 03:58.950
ervoor zorgt dat een agent niet vastzit in een of andere staat.

03:59.070 --> 04:03.520
En om dat te doen, gaan we de verdraaide variabele op de volgende manier bijwerken.

04:04.710 --> 04:11.850
Nou, het zal gelijk zijn aan Dunn of we gaan een voorwaarde toevoegen die zegt dat de aflevering van het spel

04:11.850 --> 04:13.710
niet te lang mag duren.

04:14.220 --> 04:20.430
En u zult in de hoofdfunctie zien dat er een parameter voor de lengte van de volgende aflevering zal zijn, die gelijk

04:20.430 --> 04:21.720
zal zijn aan tienduizend.

04:21.990 --> 04:25.460
En we willen niet dat een aflevering langer duurt dan tienduizend stuks.

04:25.710 --> 04:33.510
Dus we gaan hier de lengte van de aflevering toevoegen, wat de lengte van een aflevering is, en we

04:33.510 --> 04:37.230
gaan een voorwaarde schrijven die groter is dan Max.

04:38.120 --> 04:46.280
Afleveringslengtes die we gebruiken, maken het eigenlijk de lengte die we krijgen van onze parameters, daarom voeg

04:46.280 --> 04:50.080
ik hier programma's toe met de bromstadmaximizer-lengte.

04:50.480 --> 04:59.270
Dus dit betekent dat als het spel klaar is of de lengte van de aflevering groter is dan de maximale lengte van de afleveringsset, die gelijk zal

04:59.270 --> 05:04.100
zijn aan tienduizend, het spel zal worden gespeeld en we een nieuw spel zullen

05:04.100 --> 05:04.610
beginnen.

05:05.750 --> 05:07.820
Oké, dus dat is slechts een voorzorgsmaatregel.

05:08.000 --> 05:11.390
En over voorzorg gesproken, we gaan nog een voorzorgsmaatregel toevoegen.

05:11.570 --> 05:14.950
Het is om de beloning tussen min één en plus één te klemmen.

05:15.320 --> 05:20.600
We hebben de beloning hier al, maar we willen ervoor zorgen dat de beloning tussen min één en plus één ligt.

05:20.990 --> 05:27.260
En om dit te doen, hoeven we alleen maar de beloning bij te werken door dit te doen, de max te

05:27.260 --> 05:30.590
nemen, dan de mannen van beloning en één te nemen.

05:31.010 --> 05:35.510
En hier nemen we het maximum van het minimum aan beloning en één en min één.

05:36.020 --> 05:38.690
En dat is wat ervoor zorgt dat de beloning tussen min één ligt.

05:38.690 --> 05:39.140
Plus een.

05:39.950 --> 05:47.330
Oké, dus nog een voorzorgsmaatregel en nu willen we gewoon controleren of het spel klaar is, in welk geval we de omgeving

05:47.330 --> 05:50.480
zullen herstellen, en waarom moeten we dat nu controleren?

05:50.480 --> 05:54.590
Het is omdat we net hebben bereikt en New zei dat we net een nieuwe transmissie hebben doorgegeven.

05:54.740 --> 05:59.230
Dus we moeten dat controleren na het passeren van deze nieuwe overgang terwijl het spel nog niet klaar is.

05:59.810 --> 06:09.470
Dus als het opnieuw wordt gedaan, als het wordt gedaan, zullen we in dat geval de omgeving herstellen door de lengte van de

06:10.700 --> 06:19.160
aflevering op nul in te stellen en ook zal de status opnieuw worden geïnitialiseerd om deze opnieuw te initialiseren.

06:19.170 --> 06:23.180
We nemen onze omgeving en we gebruiken de reset-functie.

06:24.410 --> 06:30.860
OK, nu komen we uit deze toestand die alleen maar was om in te checken, en wat we nu gaan doen is

06:30.860 --> 06:35.960
sinds we een nieuwe staat hebben bereikt, nou, deze nieuwe staat is nu en dan baira, want

06:35.960 --> 06:40.110
onthoud, de staten zijn de ingangen, afbeeldingen die oorspronkelijk bekend waren door gewist.

06:40.430 --> 06:44.200
En dus moeten we nu de nieuwe toestand omzetten in een toortssensor.

06:44.450 --> 06:52.280
Dus we gaan onze status updaten en we gaan de fakkelbibliotheek gebruiken en natuurlijk

06:52.760 --> 07:01.210
de van Noontide-functie om dit aantal om te zetten, een status van de invoerbeelden in een zaklampsensor.

07:02.000 --> 07:02.590
Perfect.

07:03.050 --> 07:08.580
En het laatste wat we moeten doen voordat we uit deze for-loop komen, is de loop op onze stappen.

07:08.600 --> 07:12.590
Nou, het is natuurlijk om de beloning toe te voegen aan de beloningslijst.

07:12.890 --> 07:15.010
Dat is het laatste dat moet worden bijgewerkt.

07:15.140 --> 07:18.070
We hebben alle lijsten hier bijgewerkt, behalve de beloning.

07:18.170 --> 07:19.430
Dus dat gaan we nu doen.

07:19.440 --> 07:26.620
We nemen onze beloningen en gebruiken de penfunctie om de laatst ontvangen beloning bij te wonen.

07:27.320 --> 07:27.920
Perfect.

07:28.070 --> 07:35.000
En net voordat we uit de lus zijn, hoeven we nog een laatste controle uit te voeren om dat te controleren.

07:35.240 --> 07:38.990
Als het klaar is, willen we de verkenning stoppen.

07:39.350 --> 07:45.830
En dus gaan we hier gewoon een pauze toevoegen, wat betekent dat als het klaar is, we de verkenning stoppen

07:45.980 --> 07:50.690
en direct doorgaan naar de volgende stap, namelijk de update van het gedeelde model.

07:51.380 --> 07:53.910
En nu zijn we klaar met deze groep.

07:54.410 --> 08:01.550
Nu de agent zijn verkenning heeft gedaan, zal hij het gedeelde model updaten en daar zullen we in de volgende

08:01.550 --> 08:03.020
Atauro voor zorgen.

08:03.290 --> 08:04.850
Tot dan, Inge.