WEBVTT

00:00.660 --> 00:03.540
Ciao bentornati al corso sull'intelligenza artificiale.

00:03.540 --> 00:08.940
Nel tutorial di oggi copriremo un tutorial piuttosto complesso chiamato traccia di idoneità o

00:08.940 --> 00:09.500
step.

00:09.500 --> 00:14.970
Q apprendimento e questo è qualcosa che ho intenzione di implementare nel lato pratico delle cose

00:14.970 --> 00:21.390
quindi è per questo che dobbiamo uscire e al centro è un argomento abbastanza complesso, quindi abbiamo un approccio

00:21.690 --> 00:24.880
molto interessante per farci diventare subito operativi l'intuizione dietro.

00:24.890 --> 00:29.760
Quindi ho in mente un approccio diverso rispetto a quello che siamo abituati a considerare il semplice sguardo e

00:29.760 --> 00:30.560
vedere come va.

00:30.780 --> 00:34.190
Quindi voglio darti un esempio per iniziare.

00:34.260 --> 00:39.990
Ti darò un esempio in questo tutorial e questo dimostrerà il potere dell'idoneità.

00:40.020 --> 00:42.470
E dacci l'intuizione dietro le cose.

00:42.540 --> 00:47.880
E poi, se ti piace approfondire ulteriormente i tratti di eleggibilità, ti darò il posto migliore dove

00:47.880 --> 00:49.210
puoi leggere al riguardo.

00:49.290 --> 00:52.560
Ti darò un riferimento a un libro ma altrimenti.

00:52.560 --> 00:57.120
Quindi, mentre questo sarà diverso perché ci occupiamo prima di tutto, piuttosto che

00:57.420 --> 01:01.580
scavare nell'intuizione, vedremo un esempio e l'intuitivo diventerà ovvio dopo aver parlato.

01:01.580 --> 01:03.010
E questa è la mia speranza.

01:03.130 --> 01:03.860
Quindi diamo un'occhiata.

01:03.860 --> 01:06.000
Vediamo vediamo se possiamo farlo.

01:06.000 --> 01:12.780
Quindi qui abbiamo due agenti e stanno navigando nello stesso ambiente e vedremo come funzionano questi

01:12.780 --> 01:13.740
due agenti.

01:13.740 --> 01:16.260
Il primo funzionerà con la nostra tracciabilità.

01:16.260 --> 01:22.230
Il secondo funzionerà con tracce illeggibili e, si spera, vedremo perché il secondo sarà

01:22.230 --> 01:24.450
molto più potente del primo.

01:24.630 --> 01:26.240
Quindi diamo un'occhiata.

01:26.250 --> 01:28.040
Guarderemo prima questo agente.

01:28.320 --> 01:34.170
E il modo in cui opera è il modo esatto in cui abbiamo discusso di cose circolari profonde finora.

01:34.530 --> 01:40.230
Quindi l'agente farà un passo o si muoverà per portare un movimento di azione in un nuovo stato.

01:40.260 --> 01:45.480
Bene avere una certa ricompensa sta per mettere in atto che attraverso o attraverso il suo algoritmo aggiornare

01:45.480 --> 01:50.610
la rete neurale che sta eseguendo questo agente o che è in esecuzione nella mente di questo agente.

01:50.610 --> 01:54.870
Quindi questo è fondamentalmente il modo in cui sta imparando da quel momento sta per fare un nuovo passo.

01:54.870 --> 01:59.550
sta dicendo che sta per ricevere ricompense in corso di aggiornamento e così via e continuerà a farlo.

01:59.550 --> 02:03.930
Quindi da questo nuovo stato prenderà una nuova azione basata su ciò che la sua rete neurale

02:03.930 --> 02:09.370
Quindi ovviamente questo farà un buon lavoro e, come abbiamo visto in precedenza dal

02:09.400 --> 02:15.450
precedente pratico Squire ai DRO, otterremo dei buoni risultati qui, ma ora aggiungeremo una nuova funzione.

02:15.480 --> 02:21.380
Ora questo agente numero due questo ragazzo qui sta andando a navigare nello stesso ambiente.

02:21.570 --> 02:23.770
Che cosa sta per usare la leggibilità degli alberi.

02:23.940 --> 02:25.170
E questo è ciò che significa.

02:25.170 --> 02:30.280
che prenderà in questo caso. Cinque pinze compiranno quattro passi e poi solo dopo

02:30.300 --> 02:38.730
aver fatto questi passi otterrà il calcolo della ricompensa totale che otterrà da quei passi e lui metterlo attraverso la sua rete.

02:38.730 --> 02:42.730
Quello che sta per fare è che prenderà tutti i provvedimenti

02:42.730 --> 02:48.420
Lo metterà attraverso la sua rete neurale che governa il processo decisionale e quindi

02:48.420 --> 02:50.690
la rete neurale imparerà da quello.

02:50.700 --> 02:51.600
Quindi quale?

02:51.630 --> 02:54.050
Subito come pensi che sia più potente.

02:54.150 --> 02:59.070
Il ragazzo che lo sta facendo solo un passo alla volta e un po 'come spiare il buio o il buio e lui è

02:59.070 --> 03:01.550
come OK, quindi vado a fare un passo per vedere cosa succede.

03:01.620 --> 03:02.830
Fai un passo per vedere cosa succede.

03:02.850 --> 03:03.480
Prendere provvedimenti

03:03.480 --> 03:04.020
Che succede.

03:04.020 --> 03:10.680
Il ragazzo in cima o il ragazzo che prende solo molto coraggiosamente Marsha attraverso quattro passaggi di fila e poi

03:11.130 --> 03:17.610
decide se quelli sono stati buoni passi o non del tutto e perché puoi vedere qui o perché probabilmente

03:17.610 --> 03:22.470
stai capendo perché il secondo ragazzo è migliore o è più potente perché il

03:22.470 --> 03:25.160
secondo ragazzo sa davvero cosa c'è alla fine.

03:25.170 --> 03:30.030
Il primo quando è quando sta valutando se questo passo è buono o meno, sta solo guardando la

03:30.030 --> 03:31.170
ricompensa che sta ottenendo.

03:31.280 --> 03:34.430
E quindi è guidato solo dalla ricompensa che l'ambiente gli sta dando.

03:34.440 --> 03:39.570
La stessa cosa qui è solo guidato dalla ricompensa che questo ambiente gli sta dando qui.

03:39.620 --> 03:46.490
Quindi ogni volta che è il suo unico tipo di bussola che ha la ricompensa, la ricompensa è la ricompensa.

03:46.560 --> 03:51.800
Considerando che qui in realtà può valutare dopo aver preso le misure che può valutare.

03:51.820 --> 03:53.960
OK, quindi sono arrivato al traguardo.

03:54.000 --> 03:56.640
Quindi questa combinazione di passaggi è stata buona.

03:56.700 --> 03:57.680
Tutti erano buoni.

03:57.840 --> 04:01.410
O Oh no, sono finito nel firepit o Ohno I.

04:01.500 --> 04:08.100
L'ho fatto e quando la mia macchina non è arrivata al traguardo o ho attraversato il muro di sabbia o ho perso il gioco del

04:08.100 --> 04:09.340
destino o qualcosa del genere.

04:09.450 --> 04:13.330
E poi decide che tutta questa combinazione di passaggi è cattiva.

04:13.650 --> 04:18.180
E quindi per questi passaggi che sono in precedenza ha più informazioni.

04:18.180 --> 04:23.490
Ha più intuizioni come in un approccio molto intuitivo.

04:23.490 --> 04:26.000
Ancora una volta questo è un argomento molto più complesso di quello che stiamo rappresentando qui.

04:26.010 --> 04:32.370
Ma in un modo intuitivo, per esempio, se fai questo passo, questo passo ha solo informazioni per ottenerlo, qui trovi

04:32.370 --> 04:34.990
solo le informazioni che tornano da questo premio.

04:35.070 --> 04:38.580
E per questo passo in questo caso lo stesso esatto passaggio.

04:38.640 --> 04:41.670
Ha più informazioni da cui provengono tutte le informazioni.

04:41.820 --> 04:45.500
OK, quindi qual è stato il risultato dopo quattro passaggi o cinque passaggi o qualsiasi altra cosa.

04:45.520 --> 04:51.930
Sì, è così che funziona così e perché si chiama traccia dell'eleggibilità perché durante questo processo non

04:51.960 --> 04:58.170
solo guarda al computer la ricompensa di ciò che sta accadendo e quindi la perdita cumulativa e

04:58.200 --> 05:00.460
quindi tutto ciò che è appropriato.

05:00.620 --> 05:05.210
Ma in realtà c'è una traccia di eleggibilità come quella che viene chiamata la fiducia della disabilità.

05:05.210 --> 05:15.440
che otteniamo una punizione otteniamo una ricompensa negativa, allora quale di questi passaggi è più probabile che sia ammissibile per quella punizione.

05:15.470 --> 05:23.060
C'è una traccia che viene mantenuta in un algoritmo che dice OK, quindi se otteniamo una diciamo

05:23.090 --> 05:29.690
Quindi non solo sappiamo quale sia l'insieme di questo schema o la combinazione di passi

05:29.690 --> 05:36.350
della scuola, ma manteniamo anche una traccia di ammissibilità quali passi stiamo aggiornando se otteniamo tutti.

05:36.350 --> 05:40.970
Per esempio, se come ricompensa negativa potremmo avere una traccia di eleggibilità che

05:41.030 --> 05:47.360
ci indica che questo è un passo più responsabile per ciò che abbiamo ottenuto alla fine o

05:47.390 --> 05:54.800
se è una ricompensa positiva, potremmo sapere che l'algoritmo ci aiuta a tenere traccia questo algoritmo di ammissibilità ci aiuta

05:54.830 --> 06:03.170
anche a tenere traccia di qual è il passo o quale azione deve essere ammissibile per essere aggiornato in base a tale premio

06:03.170 --> 06:03.820
che otteniamo.

06:03.860 --> 06:05.820
Ed è per questo che si chiama traccia dell'eleggibilità.

06:06.160 --> 06:11.810
E così questa è l'intuizione di base dietro l'ammissibilità e si spera che questi due

06:11.810 --> 06:18.260
esempi di questi agenti lo rendano abbastanza ovvio o abbastanza intuitivo mentre queste abilità possono essere così potenti.

06:18.440 --> 06:25.760
E se, come promesso, ti piacerebbe approfondire ulteriormente le tracce di idoneità o l'apprendimento graduale, allora un

06:26.330 --> 06:31.220
meraviglioso libro meraviglioso che puoi trovare è chiamato apprendimento di rinforzo.

06:31.220 --> 06:36.590
Un'introduzione è di Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Penso che stiano creando una seconda edizione o il problema molto critico.

06:40.790 --> 06:49.210
o il più popolare o il più diffuso sull'apprendimento della sicurezza, ha un numero ridicolo di citazioni.

06:49.260 --> 06:53.050
Ma questo è il libro più comune

06:53.300 --> 06:56.630
Penso che siano decine di migliaia se non sbaglio.

06:56.810 --> 07:01.120
E anche il capitolo che ti serve è il capitolo 7.

07:01.130 --> 07:06.900
Quindi, al fine di esaminare le scelte di ammissibilità, c'è un intero capitolo sul Capitolo 7.

07:06.920 --> 07:10.100
Puoi leggere su di esso e va in molti dettagli.

07:10.220 --> 07:17.660
Forward backward eligibility trace e anche come differenza temporale integrale da una parte e dall'altra estremità dello

07:17.660 --> 07:23.320
spettro avete metodi Monte-Carlo tra voi avete tracce di ammissibilità presumibilmente tracce o

07:23.330 --> 07:27.280
vi collegate per passare da differenze temporali a metodi Monte-Carlo.

07:27.290 --> 07:34.190
Molto interessante leggere molte immagini che ho davvero apprezzato molto spiegazioni molto intuitive.

07:34.250 --> 07:40.550
Quindi ci sono molte cose che puoi imparare da questo libro sull'intelligenza artificiale e sull'apprendimento del

07:40.550 --> 07:48.230
rafforzamento, ma in particolare l'ammissibilità delle tracce è come un ottimo posto dove andare è questo libro per le tracce

07:48.230 --> 07:49.190
di ammissibilità.

07:49.350 --> 07:57.070
E il secondo riferimento per oggi è qualcosa che ti mostrerà nelle prove pratiche il deep learning o

07:57.440 --> 08:04.460
il documento di ricerca approfondita di Google su un metodo sincrono per un apprendimento di rinforzo più

08:04.550 --> 08:05.120
profondo.

08:05.270 --> 08:11.270
il documento che è l'unico documento in cui l'A-3 vede la carta che discuteremo più avanti nel punteggio.

08:11.270 --> 08:12.240
Sì, questo è

08:12.240 --> 08:14.410
Ci stiamo avvicinando sempre di più.

08:14.510 --> 08:21.200
E come puoi dire siamo piuttosto entusiasti di questo, quindi questo sarà un po 'su come

08:21.500 --> 08:28.400
hanno implementato le tracce di eleggibilità in questo articolo, quindi lo useremo di più per il lato

08:28.400 --> 08:29.420
pratico delle cose.

08:29.420 --> 08:33.650
Quindi spero che il tutorial di oggi ti sia piaciuto e che tu sia un po 'più a tuo agio con le tracce

08:34.010 --> 08:35.920
di idoneità e non vedo l'ora di vederti la prossima volta.

08:35.930 --> 08:37.680
Fino ad allora goditi a.