WEBVTT

00:00.560 --> 00:05.210
Hallo en welkom terug bij de cursus over kunstmatige intelligentie in de Atauro van vandaag, we

00:05.210 --> 00:09.370
gaan een vrij complexe kleermakerij behandelen die geschiktheidstracering of en stap wordt genoemd.

00:09.380 --> 00:10.270
V Leren.

00:10.520 --> 00:14.540
En dit is iets dat we gaan implementeren in de praktische kant van de dingen.

00:14.540 --> 00:15.710
Dus daarom moeten we het verdoezelen.

00:16.010 --> 00:18.380
En tegelijkertijd is het een behoorlijk complex onderwerp.

00:18.380 --> 00:24.830
Dus ik heb een zeer interessante benadering om ons op de hoogte te brengen van de intuïtie achter de.

00:24.830 --> 00:28.210
Ik heb dus graag een andere aanpak voor ogen dan we gewend zijn.

00:28.220 --> 00:30.290
Dus laten we daar eens naar kijken en kijken hoe dat gaat.

00:30.680 --> 00:33.980
Dus ik ga je een voorbeeld geven om mee te beginnen.

00:34.130 --> 00:39.680
Ik ga je een voorbeeld geven, deze tutorial, en dat zal de kracht van geschiktheid voor ons demonstreren

00:39.680 --> 00:42.050
en ons de intuïtie achter dingen geven.

00:42.410 --> 00:47.810
En als u zich verder wilt verdiepen in geschiktheidskenmerken, geef ik u de beste plaats waar u erover

00:47.810 --> 00:48.560
kunt lezen.

00:49.220 --> 00:52.460
Ik zal je een verwijzing naar een boek geven, maar anders.

00:52.460 --> 00:57.080
Dus waarom dit anders zal zijn, is omdat we eerst in plaats van in de intuïtie duiken, we naar een

00:57.290 --> 01:01.880
voorbeeld gaan kijken en de intuïtie zal duidelijk worden nadat we erover hebben gesproken en dat is mijn hoop

01:01.880 --> 01:03.080
voor dit materiaal .

01:03.090 --> 01:03.800
Dus laten we eens kijken.

01:03.800 --> 01:05.570
Laten we eens kijken of we dit kunnen doen.

01:05.900 --> 01:09.860
Dus hier hebben we twee agenten en ze navigeren door dezelfde omgeving.

01:10.250 --> 01:13.610
En we gaan zien hoe deze twee agenten werken.

01:13.620 --> 01:15.860
De eerste gaat werken met ons geschiktheidsspoor.

01:16.170 --> 01:17.900
De tweede gaat werken met geschiktheid.

01:18.200 --> 01:24.220
En hopelijk zullen we zien waarom de tweede zoveel krachtiger zal zijn dan de eerste.

01:24.500 --> 01:26.000
Dus laten we eens kijken.

01:26.090 --> 01:27.680
We gaan eerst naar deze agent kijken.

01:28.190 --> 01:33.730
En de manier waarop hij werkt, is precies de manier waarop we tot nu toe DIPP AQ-leren hebben besproken.

01:34.460 --> 01:39.980
Dus de agent gaat een stap zetten of gaat verhuizen, een actie ondernemen om naar een nieuwe staat te gaan.

01:40.160 --> 01:44.600
Het zal een bepaalde beloning krijgen en die beloning zal door zijn algoritme worden gestuurd.

01:44.600 --> 01:50.240
Werk het neurale netwerk bij dat deze agent uitvoert of dat in de geest van deze agent wordt uitgevoerd.

01:50.510 --> 01:54.800
Dus dat is eigenlijk hoe het leert vanaf het moment dat het een nieuwe stap gaat zetten.

01:54.800 --> 01:59.480
Dus vanuit deze nieuwe staat gaat hij een nieuwe actie ondernemen op basis van wat zijn neurale netwerk hem vertelt

01:59.480 --> 02:03.410
te doen, gaat hij beloningen krijgen, gaat hij updaten enzovoort, en hij zal dat blijven doen.

02:03.860 --> 02:06.560
Het is dus duidelijk dat dit heel goed gaat werken.

02:06.560 --> 02:11.330
En zoals we eerder hebben gezien van de vorige praktische score voor proeven, gaan we hier behoorlijk goede

02:11.330 --> 02:12.140
resultaten behalen.

02:12.560 --> 02:15.190
Maar nu gaan we een nieuwe functie toevoegen.

02:15.320 --> 02:22.280
Nu, deze agent nee tegen deze man hier, hij gaat door dezelfde omgeving navigeren, maar hij gaat het geschiktheidsspoor

02:22.280 --> 02:24.860
gebruiken en dit is wat het betekent.

02:25.040 --> 02:29.750
Wat hij gaat doen, is dat hij alle stappen neemt die hij in dit geval gaat nemen, vijf, vier

02:29.750 --> 02:30.170
stappen.

02:30.170 --> 02:31.460
Hij gaat vier stappen zetten.

02:31.760 --> 02:39.740
En dan pas na het nemen van deze stappen zal hij de totale beloning berekenen die hij van die stappen heeft

02:39.740 --> 02:40.250
gekregen.

02:40.520 --> 02:42.680
En hij zet het via zijn netwerk.

02:42.680 --> 02:47.360
Hij zal het door zijn neurale netwerk sturen dat het besluitvormingsproces bestuurt.

02:47.360 --> 02:50.030
En dan zal het neurale netwerk daarvan leren.

02:50.630 --> 02:51.980
Dus welke meteen.

02:51.980 --> 02:53.840
Zoals welke denk je dat krachtiger is?

02:53.990 --> 02:59.000
De man die het stap voor stap doet en een beetje in de blinde of in het donker snuffelt.

02:59.000 --> 03:02.330
En hij zegt, oké, dus ik ga een stap zetten, kijken wat er gebeurt, een stap zetten, kijken wat

03:02.330 --> 03:03.920
er gebeurt, een stap zetten, kijken wat er gebeurt.

03:03.920 --> 03:10.580
De man aan de top of de man die gewoon heel moedig marcheert door vier stappen achter elkaar.

03:10.970 --> 03:17.550
En dan beslist hij of dat goede stappen waren of niet en waarom je hier kunt zien of waarom je waarschijnlijk

03:17.550 --> 03:22.400
een idee krijgt waarom de tweede man beter of krachtiger is, omdat de tweede man echt

03:22.400 --> 03:24.890
weet wat er aan het einde is.

03:25.070 --> 03:29.870
De eerste man wanneer hij beoordeelt of de stap goed is of niet, hij kijkt alleen naar de

03:29.870 --> 03:31.010
beloning die hij krijgt.

03:31.250 --> 03:32.990
En dus laat hij zich alleen leiden door de beloning.

03:32.990 --> 03:35.090
De omgeving geeft hem hier hetzelfde.

03:35.090 --> 03:38.720
Ze laat zich alleen leiden door de beloning die deze omgeving hem hier geeft.

03:39.500 --> 03:45.410
Dus elke keer dat dat zijn enige soort kompas is, heeft hij de beloning, de beloning, de beloning.

03:46.460 --> 03:52.220
Terwijl hij hier daadwerkelijk kan beoordelen na het nemen van al deze stappen, kan hij beoordelen, oh, oké.

03:52.220 --> 03:53.630
Zo kwam ik bij de finish.

03:53.900 --> 03:56.540
Dus deze combinatie van stappen was goed.

03:56.570 --> 03:58.170
Ze waren allemaal goed of.

03:58.170 --> 04:00.410
Oh, nee, ik belandde in de vuurplaats of.

04:00.410 --> 04:07.250
Oh nee, ik, ik heb niet gewonnen of mijn auto kwam niet bij de finish of ik stak de zandmuur over of ik verloor

04:07.430 --> 04:09.200
het spelletje Doom of iets dergelijks.

04:09.290 --> 04:13.040
En dan besluit hij dat deze hele combinatie van stappen slecht is.

04:13.520 --> 04:18.110
En daarom heeft hij voor deze stappen die eerder zijn meer informatie.

04:18.110 --> 04:23.190
Hij heeft meer inzichten zoals in een zeer intuïtieve benadering.

04:23.200 --> 04:27.260
Nogmaals, dit is een veel complexer onderwerp dan we hier schetsen, maar op een intuïtieve manier.

04:27.620 --> 04:32.420
Als u deze stap bijvoorbeeld uitvoert, bevat deze stap alleen informatie om deze bij te werken.

04:32.420 --> 04:37.610
Je hebt hier alleen informatie die terugkomt van deze beloning en voor deze stap in dit geval exact

04:37.610 --> 04:38.330
dezelfde stap.

04:38.480 --> 04:41.480
Het heeft meer informatie, informatie komt er helemaal vandaan.

04:41.660 --> 04:44.960
OK, dus wat was het resultaat na vier stappen of vijf stappen of wat dan ook?

04:45.380 --> 04:45.650
Ja.

04:45.650 --> 04:51.920
Dus dat is hoe het werkt en waarom het geschiktheidstracering wordt genoemd, is omdat hij tijdens dit proces niet alleen kijkt

04:51.920 --> 04:57.740
naar de cumulatieve beloning hiervan, van wat er aan de hand was en dan het cumulatieve verlies en dan

04:57.740 --> 05:00.050
is dat allemaal een propagator die zijn.

05:00.530 --> 05:05.990
Maar eigenlijk is er een spoor van geschiktheid, dat heet geschiktheidspoor, er is

05:06.620 --> 05:15.410
een spoor dat in het algoritme wordt bewaard, dat zegt, OK, dus als we een laten we zeggen dat we een straf krijgen,

05:15.410 --> 05:22.520
krijgen we een negatieve beloning, welke van deze stappen komt dan het meest waarschijnlijk in aanmerking voor die

05:22.520 --> 05:23.010
straf?

05:23.030 --> 05:29.630
We weten dus niet alleen wat dit hele patroon of deze combinatie van stappen in het algemeen is, maar we

05:29.630 --> 05:32.300
houden ook een spoor bij van geschiktheid.

05:32.510 --> 05:36.260
Welke stappen gaan we updaten als we een beloning krijgen?

05:36.280 --> 05:39.650
Dus als er bijvoorbeeld een negatieve beloning is, hebben we misschien een spoor om in aanmerking te komen.

05:39.650 --> 05:46.340
Dat geeft voor ons aan dat dit een stap is die het meest verantwoordelijk is voor wat we uiteindelijk hebben gekregen of dat het een positieve

05:46.340 --> 05:47.060
beloning is.

05:47.060 --> 05:51.410
Nogmaals, we weten misschien dat het algoritme ons helpt bij het bijhouden.

05:51.590 --> 05:58.640
Dit op geschiktheid gebaseerde algoritme helpt ons bij te houden wat welke stap is of welke actie het moet

05:58.640 --> 05:59.030
zijn.

05:59.030 --> 06:03.580
Komt in aanmerking voor updates op basis van die beloning die we ontvangen.

06:03.740 --> 06:05.120
En daarom heet het geschiktheid.

06:06.020 --> 06:08.670
En dat is dus de basisintuïtie achter geschiktheid.

06:08.820 --> 06:16.310
En hopelijk maken deze twee voorbeelden van deze twee agenten het vrij duidelijk of vrij intuïtief waarom geschiktheidstests zo

06:16.310 --> 06:17.900
krachtig kunnen zijn.

06:18.260 --> 06:25.070
En als je, zoals beloofd, je verder wilt verdiepen in het onderwerp van geschiktheidssporen of het

06:25.310 --> 06:31.940
begin van leren, dan is een prachtig, verbazingwekkend boek, dat je kunt vinden, Reinforcement Learning

06:31.940 --> 06:36.610
and Introduction genaamd, van Richard Sutton en Andrew Barto, 1998.

06:36.620 --> 06:40.730
Ik denk dat ze bezig zijn met het maken van een tweede editie van de zeer kritieke toestand.

06:40.730 --> 06:49.230
Maar dit is het meest voorkomende of het meest populaire of het meest gerefereerde boek over versterkend leren.

06:49.250 --> 06:56.350
Het heeft een belachelijk aantal citaten, denk ik, tienduizenden, als ik me niet vergis.

06:56.660 --> 07:00.740
En ook het hoofdstuk dat je hiervoor nodig hebt is hoofdstuk zeven.

07:01.010 --> 07:06.530
Dus om de geschiktheidssporen te bekijken, is er een heel hoofdstuk over een Hoofdstuk zeven.

07:06.800 --> 07:14.060
Je kunt erover lezen en het gaat in op veel details, voorwaartse, achterwaartse geschiktheidssporen en ook hoe je aan de

07:14.060 --> 07:19.400
ene kant tijdsverschil hebt en aan de andere kant van het spectrum, je hebt

07:19.400 --> 07:19.910
Montecarlo-methoden.

07:20.060 --> 07:21.800
Daartussenin heb je recht.

07:21.800 --> 07:26.960
Sporen van geschiktheidssporen zijn uw schakel om van temporele verschillen naar Montecarlo-methoden te gaan.

07:27.170 --> 07:28.280
Heel interessant.

07:28.280 --> 07:31.550
Veel foto's gelezen, wat ik erg op prijs stelde.

07:31.550 --> 07:33.970
Zeer intuïtieve uitleg.

07:34.130 --> 07:40.490
Er zijn dus veel dingen die je uit dit boek kunt leren over kunstmatige intelligentie en

07:40.490 --> 07:46.670
versterkend leren, maar specifiek geschiktheidssporen zijn een heel goede plek om naartoe te gaan.

07:46.670 --> 07:48.590
Is dit boek geschikt voor sporen?

07:49.160 --> 07:56.420
En de tweede referentie voor vandaag is iets dat je zal laten zien in de

07:56.540 --> 08:04.910
praktische tutorials, het deep learning of het Google Deep Mind-onderzoeksdocument over asynchrone methoden voor een dieper versterkend leren.

08:05.180 --> 08:06.740
Ja, dat is het papier.

08:06.740 --> 08:12.170
Dat is het enige artikel dat het H3C-artikel is dat we verderop in deze cursus gaan bespreken.

08:12.170 --> 08:14.090
We komen er steeds dichter bij.

08:14.360 --> 08:18.290
En zoals je kunt zien, zijn we hier behoorlijk enthousiast over.

08:18.290 --> 08:25.520
Dus dit gaat een beetje kijken naar hoe ze geschiktheidssporen in dit document hebben geïmplementeerd.

08:25.520 --> 08:28.850
Dus we gaan dit meer gebruiken voor de praktische kant van de dingen.

08:29.300 --> 08:33.620
Dus hopelijk heb je genoten van de tutorial van vandaag en ben je nu wat meer vertrouwd met de geschiktheidssporen.

08:33.860 --> 08:35.760
En ik kan niet wachten om je de volgende keer te zien.

08:35.780 --> 08:37.580
Tot die tijd, geniet van Ehi.