WEBVTT

00:00.390 --> 00:01.110
Siete pronti?

00:01.350 --> 00:06.930
Facciamo questo, iniziamo installando tutte le dipendenze di sistema per Vista, facciamo clic su questo

00:06.930 --> 00:14.340
pulsante di riproduzione e ora installerà tutte le dipendenze, come puoi vedere, come Pelo o ZIPPI e anche alcune

00:14.340 --> 00:18.170
altre dipendenze che saranno necessarie per eseguilo con successo.

00:18.180 --> 00:22.010
Ma tutto il resto, come il PLI verso i moduli palestra, è già installato.

00:22.230 --> 00:23.070
Quindi è davvero fantastico.

00:23.070 --> 00:28.620
Questo è davvero il bello del buon kulam, ed è grazie al quale nessuno di voi avrà problemi nell'esecuzione

00:29.250 --> 00:31.860
del codice e nella visualizzazione del risultato finale.

00:32.430 --> 00:32.790
Tutto ok.

00:32.790 --> 00:35.250
Quindi questo richiederà effettivamente uno o due minuti.

00:35.250 --> 00:38.090
Quindi sto solo andando avanti veloce qui e ora.

00:38.100 --> 00:41.250
A presto per il resto dell'esecuzione del codice.

00:42.780 --> 00:47.790
Va bene, sembra che siamo alla fine dell'installazione delle dipendenze di

00:47.940 --> 00:53.430
sistema, come puoi vedere le sta scaricando, installandole raccogliendole con tutti i giusti requisiti.

00:53.820 --> 00:56.670
E in pochi secondi dovrebbe essere fatto.

00:57.300 --> 00:57.890
Destra.

00:58.320 --> 01:01.060
E vediamo, tre, due.

01:01.380 --> 01:02.040
Ci siamo.

01:02.130 --> 01:03.900
Installato tutto con successo.

01:03.900 --> 01:05.250
Non preoccuparti di questi errori qui.

01:05.250 --> 01:11.040
Non avranno alcun impatto sull'esecuzione del codice, ma tutto viene installato con successo proprio come vogliamo.

01:11.070 --> 01:11.550
Tutto ok.

01:12.000 --> 01:14.520
Quindi ora il prossimo passo, molto importante.

01:14.850 --> 01:16.620
Guarda questa nota importante.

01:16.620 --> 01:22.290
Dice che dopo aver installato tutti i Benz, fondamentalmente dopo aver eseguito questa prima cella qui, devi

01:22.290 --> 01:24.030
riavviare il tuo runtime.

01:24.030 --> 01:26.550
Altrimenti otterrai alcuni errori di esecuzione qui.

01:26.560 --> 01:27.620
Quindi facciamolo velocemente.

01:27.630 --> 01:28.440
È molto semplice.

01:28.440 --> 01:33.030
Devi solo fare clic su runtime qui, quindi riavviare runtime e poi.

01:33.030 --> 01:33.420
Sì.

01:33.510 --> 01:33.930
Tutto ok.

01:33.930 --> 01:40.050
Questo ripristinerà il tuo runtime e ora puoi semplicemente eseguire tutte queste celle semplicemente facendo clic sul pulsante di

01:40.050 --> 01:40.490
riproduzione.

01:40.500 --> 01:44.530
Quindi facciamolo, iniziando con questa prima preelaborazione dell'immagine del file.

01:44.850 --> 01:45.350
Tutto ok.

01:45.360 --> 01:51.750
Quindi, prima importiamo le librerie, quindi pre-elaboriamo le immagini con la classe dell'immagine di pre-elaborazione.

01:51.750 --> 01:58.320
E ora siamo già passati all'implementazione della riproduzione dell'esperienza, ovvero questa.

01:58.570 --> 01:59.160
Tutto ok.

01:59.550 --> 02:00.360
Quindi facciamolo.

02:00.360 --> 02:04.860
Prima importiamo le librerie, quindi definiamo un passaggio dell'ambiente.

02:05.310 --> 02:12.360
Quindi facciamo la A. IO. avanzamento su diversi passaggi e con la classe di avanzamento del

02:12.360 --> 02:14.610
passaggio finale esattamente uguale a quello che abbiamo nella cartella.

02:14.970 --> 02:20.370
E poi implementiamo l'esperienza che giochiamo costruendo questa classe di memoria di replay.

02:20.490 --> 02:20.970
Tutto ok.

02:21.120 --> 02:21.750
Tutto bene.

02:22.050 --> 02:24.110
E ora passiamo al terzo fallo.

02:24.840 --> 02:31.740
Questo A. IO. presumo di aver applicato e quindi importiamo prima le librerie.

02:31.890 --> 02:32.250
Tutto ok.

02:32.250 --> 02:37.290
Quindi ci vuole un po 'di tempo qui perché importiamo tutti i moduli della torcia, poi importiamo i

02:37.290 --> 02:41.040
pacchetti per l'apertura e lo facciamo con la palestra e la saggezza, Jim.

02:41.040 --> 02:43.080
E l'involucro va bene.

02:43.470 --> 02:48.780
E poi passiamo alla prima parte qui, Edificio II, dove creeremo il cervello, poi

02:48.780 --> 02:51.370
il corpo e poi assembleremo tutto.

02:51.390 --> 03:00.150
Quindi prima mettiamo a posto il cervello con la classe CNN, poi creiamo il corpo con la classe corpo

03:00.150 --> 03:04.370
softmax e poi facciamo l'IA con una classe.

03:04.710 --> 03:05.250
Tutto ok.

03:05.280 --> 03:06.060
Quindi tutto bene.

03:06.420 --> 03:08.130
E ora siamo pronti per passare alla seconda parte.

03:08.150 --> 03:12.120
Formeremo l'IA con, ovviamente, un Q Learning convoluzionale profondo.

03:12.540 --> 03:12.980
Tutto ok.

03:12.980 --> 03:15.060
Così esecutivo, come quello che abbiamo qui.

03:15.540 --> 03:19.140
Per prima cosa otteniamo l'ambiente doom con i nostri nuovi moduli con doom.

03:19.140 --> 03:20.100
Non preoccuparti di questo.

03:20.370 --> 03:21.390
Questo non è un errore.

03:21.780 --> 03:27.510
Quindi costruiremo l'A. IO. integrando i diversi oggetti da portare in CNN, i corpi del

03:27.510 --> 03:30.930
corpo di Max e l'intero A. IO. contenente il cervello e il corpo.

03:31.020 --> 03:31.410
Tutto ok.

03:31.410 --> 03:32.310
L'ho eseguito?

03:32.310 --> 03:32.700
Sì.

03:33.240 --> 03:34.950
Quindi impostiamo l'esperienza.

03:34.950 --> 03:42.090
Giochiamo con Insteps e la memoria come memoria di replay oggettiva, quindi implementiamo la traccia di

03:42.090 --> 03:42.720
ammissibilità.

03:43.170 --> 03:43.800
Tutto ok.

03:43.800 --> 03:45.180
Per migliorare le prestazioni.

03:45.690 --> 03:49.950
Quindi facciamo la media mobile su cento passi con la classe M a.

03:50.220 --> 03:52.410
E infine, amici miei, siete pronti?

03:52.530 --> 03:58.500
Bene, questo è il momento per la parte molto eccitante in cui addestreremo l'A. IO. più di venti dollari.

03:58.500 --> 03:58.860
Tutto ok.

03:58.860 --> 04:01.440
Quindi vedrai che questo sarà già un po 'lungo.

04:01.440 --> 04:06.030
Sai, ci vorranno tipo, uh, forse una o due ore perché aumento le dimensioni, sentiti libero di

04:06.030 --> 04:09.810
ridurre le emissioni di nuovo a ottanta per ottanta se trovi questo troppo lungo.

04:09.810 --> 04:12.990
Ma credimi, avrai video molto migliori con queste dimensioni.

04:13.080 --> 04:15.450
OK, quindi sei pronto?

04:15.690 --> 04:20.280
Facciamolo in tre a uno.

04:20.430 --> 04:20.880
Tutto ok.

04:20.880 --> 04:26.700
Quindi questo eseguirà il codice dell'addestramento e in pochi secondi dovremmo essere in grado di vedere la

04:26.700 --> 04:29.880
prima epoca, che avrà, ovviamente, una ricompensa negativa.

04:30.150 --> 04:35.640
Ma vedrai che, sai, nel corso delle epoche, la ricompensa aumenterà poco a poco fino

04:35.640 --> 04:40.260
a raggiungere ricompense positive e poi fino a raggiungere centinaia di ricompense.

04:40.260 --> 04:42.240
Bene, miriamo a quello, in realtà.

04:42.240 --> 04:48.150
Speriamo che con ventotto dollari avremo qualche ricompensa finale a qualche centinaio, sai, come 100

04:48.150 --> 04:53.250
o 200 o 300, perché con questi premi, li ho sperimentati effettivamente.

04:53.250 --> 04:53.490
Sì.

04:53.490 --> 04:56.790
In primo luogo, una ricompensa negativa meno novantotto.

04:57.120 --> 05:02.970
Quindi stavo dicendo che con premi intorno a 100, 200, 300, avremo già ottimi risultati.

05:02.970 --> 05:08.010
Sai, vedremo l'AA riuscire a uccidere alcuni mostri o evitarli o, sai,

05:08.010 --> 05:09.930
spostarsi verso il giubbotto.

05:10.020 --> 05:14.220
OK, quindi questo è il primo libro, uno meno novantotto.

05:14.430 --> 05:18.780
E poi sai, vedremo al libro numero due con forse già una ricompensa migliore.

05:18.780 --> 05:21.660
Ma, sai, all'inizio, ovviamente, l'EIA non è addestrato.

05:21.660 --> 05:23.520
Sta esplorando l'ambiente.

05:23.520 --> 05:23.780
Destra.

05:23.790 --> 05:28.620
Ricordi questo compromesso tra apprendimento per rinforzo, esplorazione e sfruttamento?

05:28.620 --> 05:33.180
Bene, all'inizio, l'idea è puramente esplorativa e poi si allenerà e

05:33.180 --> 05:37.890
poi diventerà sempre più piccola, ed è allora che raggiungerà una grande ricompensa.

05:37.890 --> 05:41.040
Quindi va benissimo avere ricompense negative all'inizio.

05:41.040 --> 05:41.880
Forse lo capiremo.

05:41.950 --> 05:47.680
Durante le prime tre epoche, ma poi vedrai che dopo un numero quattro o cinque o

05:47.700 --> 05:54.280
sei, beh, inizieremo a raggiungere ricompense forse positive e poi, si spera, ricompense intorno a 100, 200 o 300.

05:54.340 --> 05:57.580
OK, quindi ci vorrà un po 'di tempo, come ho detto.

05:57.580 --> 06:02.340
Quindi non resteremo qui per due ore, altrimenti finirò le cose da dire.

06:02.620 --> 06:10.000
Quindi quello che farò è metterò una musica divertente o interessante adesso e ci siamo, epoca numero due,

06:10.000 --> 06:10.830
meno 62.

06:10.840 --> 06:12.220
Quindi c'è già qualche miglioramento.

06:12.220 --> 06:12.640
Quello è buono.

06:12.640 --> 06:15.790
Ma vedrai che ci saranno miglioramenti ancora migliori.

06:16.000 --> 06:18.300
Più andiamo avanti nelle epoche.

06:18.430 --> 06:20.040
OK, quindi cosa stavo dicendo?

06:20.050 --> 06:25.330
Sì, ora metterò della bella musica e riprodurrò l'allenamento in modalità accelerata.

06:25.480 --> 06:30.320
E ovviamente ci vediamo alla fine dell'allenamento per vedere i risultati finali.

06:30.340 --> 06:30.880
Tutto ok.

06:31.000 --> 06:31.840
Quindi eccoci qui.

06:32.050 --> 06:34.870
Tre a uno.

07:20.010 --> 07:25.780
Va bene, ed eccoci qui alla fine della formazione, congratulazioni, hai addestrato un modello di apprendimento profondo e

07:26.010 --> 07:30.000
convoluzionale su un'applicazione molto impegnativa, che è giocare al gioco del destino.

07:30.510 --> 07:31.980
Quindi cosa dire?

07:32.130 --> 07:37.080
Bene, come speravamo, abbiamo raggiunto una ricompensa media di oltre 100.

07:37.590 --> 07:43.190
Quindi ciò che è importante dire è, ovviamente, che con più epoche, otterrai ricompense più elevate.

07:43.440 --> 07:49.350
Quindi, se sei pronto, ad esempio, ad addestrare questo modello per di più, sembreranno 100 epoche o

07:49.530 --> 07:54.460
anche di più per ottenere ricompense più circa 300, 400, 500 o persino 1000.

07:54.660 --> 07:56.000
Bene, sentiti libero di farlo.

07:56.010 --> 07:59.190
Ad esempio, puoi lasciarlo correre per la notte mentre dormi.

07:59.190 --> 08:02.010
E quando ti svegli la mattina, ottieni i tuoi risultati migliori.

08:02.370 --> 08:05.580
Nota che puoi anche usare nella GPU di runtime, giusto.

08:05.580 --> 08:10.500
Se cambi il tipo di runtime, cosa che non dovrei fare, perché altrimenti riavvierà il notebook.

08:10.500 --> 08:16.230
Ma nell'acceleratore hardware qui, puoi scegliere GPU o anche Tipu, ma è solo se vuoi,

08:16.230 --> 08:20.190
sai, ottimizzare le prestazioni e fare un allenamento super duro.

08:20.340 --> 08:25.060
Ma qui ho usato solo una cosa classica perché voglio solo mostrarti come eseguire tutto questo.

08:25.320 --> 08:26.240
E ci siamo.

08:26.250 --> 08:32.610
Ora eseguiremo il resto della cartella di lavoro con questo codice extra specifico solo per questo codice,

08:32.610 --> 08:36.090
quel taccuino dove, ovviamente, visualizzeremo AA in azione.

08:36.570 --> 08:36.840
Tutto ok.

08:36.840 --> 08:37.470
Quindi facciamolo.

08:37.470 --> 08:39.660
Per prima cosa importiamo le librerie.

08:39.840 --> 08:40.380
Destra.

08:40.380 --> 08:41.010
Tutto bene.

08:41.400 --> 08:46.110
Quindi stamperemo la forma di input e una serie di possibili azioni.

08:46.110 --> 08:46.470
Tutto ok.

08:46.470 --> 08:52.200
Quindi qui vedremo davvero che abbiamo sette possibili azioni, sai, nell'ambiente del corridoio del

08:52.200 --> 08:52.830
destino.

08:52.840 --> 08:59.550
Quindi questi sono andare avanti, andare indietro, andare a sinistra, andare a destra, sparare e poi forse proteggersi

08:59.550 --> 09:00.450
o altro.

09:00.450 --> 09:06.000
Non so quale sia l'ultima azione, ma qualcosa del genere, queste sono le dimensioni del

09:06.000 --> 09:07.380
frame di input.

09:07.530 --> 09:09.450
Ciò corrisponde all'altezza del telaio.

09:09.450 --> 09:11.460
Ha un'altezza di 240 pixel.

09:11.700 --> 09:14.550
Questo corrisponde alla larghezza del telaio, giusto?

09:14.550 --> 09:16.890
È grande trecentoventi.

09:17.070 --> 09:22.800
E questo corrisponde, sai, al fatto che lavoriamo con immagini colorate e le tre qui corrispondono

09:22.800 --> 09:25.410
ai tre elementi dei nostri canali.

09:25.920 --> 09:31.320
Va bene, allora eseguiamo la cella successiva che mostra un frame dell'ambiente solo per vedere

09:31.320 --> 09:31.860
com'è.

09:32.130 --> 09:36.780
E infatti, ricorda, è utile per vedere l'ambiente con cui stai lavorando.

09:36.780 --> 09:37.230
Destra.

09:37.230 --> 09:39.360
Quindi qui vediamo che siamo nel Dume Corridor.

09:39.360 --> 09:45.480
Ma se vuoi sperimentare altri ambienti qui, in realtà, sai, ricorda, sono

09:45.480 --> 09:48.510
anche nella pagina principale qui.

09:48.510 --> 09:48.990
Giusto qui.

09:48.990 --> 09:49.260
Sì.

09:49.260 --> 09:53.190
Hai tutti gli elenchi degli ambienti, sai, che consiglio di sperimentare.

09:53.400 --> 09:58.080
Quindi, sai, se vuoi dare un'occhiata a un altro, beh, sai, posso mostrarti

09:58.290 --> 10:02.610
in realtà prendiamo questo e poi tornerò in questo corridoio dello zoom.

10:02.880 --> 10:03.230
Destra.

10:03.240 --> 10:06.600
Quindi, se lo sostituisco con questo.

10:07.520 --> 10:13.490
Giusto, e lo eseguo bene, questa volta otterremo tre azioni, ovviamente, è più semplice,

10:13.490 --> 10:17.630
e se lo eseguiamo bene, vedremo questo ambiente, giusto.

10:17.650 --> 10:24.170
Quindi è solo un modo per vedere rapidamente con cosa stai lavorando e per ottenere un'anteprima fondamentalmente di ciò

10:24.170 --> 10:25.970
che l'ACA farà nell'ambiente.

10:26.450 --> 10:26.780
Tutto ok.

10:26.780 --> 10:29.050
Quindi torniamo all'angolo.

10:29.360 --> 10:33.800
Eseguiamolo ora nel caso ne avessimo bisogno per le prossime vendite.

10:34.100 --> 10:37.110
Va bene, destino perfetto, Cawdor.

10:37.370 --> 10:39.830
Ora passiamo alle vendite finali.

10:39.890 --> 10:43.490
Questa è una funzione di supporto che verrà utilizzata per le visualizzazioni.

10:43.680 --> 10:48.140
Quindi eseguiamo la vendita e ora eseguiamo l'idea su un episodio.

10:48.140 --> 10:52.970
E qui sarai in grado di capire il codice perché, sai, fondamentalmente è il processo di,

10:53.240 --> 10:59.210
sai, che fa scorrere l'aria e un episodio completo in cui ad ogni passaggio è in uno stato specifico, giocherà

10:59.210 --> 11:00.920
in azione all'interno lo stato.

11:01.070 --> 11:04.480
Quindi riceverà la ricompensa e raggiungerà la data successiva.

11:04.670 --> 11:04.940
Destra.

11:04.990 --> 11:07.460
Quindi questo è il classico processo MGP, giusto.

11:07.470 --> 11:08.720
Processo decisionale di mercato.

11:09.140 --> 11:09.950
E così ci siamo.

11:09.950 --> 11:11.600
Questo è fatto per un episodio.

11:11.610 --> 11:18.950
Infine, avremo il video del gioco del nostro A. IO. , che è stato addestrato per venti dollari, è

11:18.990 --> 11:25.220
stato in grado di raggiungere più di 100 ricompense, il che ci porterà dei risultati piuttosto buoni, ma forse non raggiungendo

11:25.220 --> 11:26.060
il massimo.

11:26.060 --> 11:26.890
Ma è ok.

11:26.900 --> 11:28.520
Lo sperimenterai da solo.

11:28.820 --> 11:34.220
E ora vorrei che facessi clic su questo per il pulsante qui, perché voglio mostrarti come viene

11:34.220 --> 11:35.240
popolato il video.

11:35.480 --> 11:40.730
Quindi queste sono alcune cartelle contenenti, sai, alcuni elementi come i frame, sai, i frame dei

11:40.730 --> 11:42.590
risultati o alcuni file jasen.

11:42.830 --> 11:45.500
Ma in realtà, ciò che interesserà è il video finale.

11:45.680 --> 11:50.990
E per ottenerlo, dobbiamo solo fare clic sul pulsante di riproduzione qui e vedrai che verrà popolato nella

11:50.990 --> 11:52.130
cartella principale qui.

11:52.130 --> 11:52.730
Da non perdere.

11:53.000 --> 11:53.690
E va bene.

11:53.690 --> 11:57.290
Sai, sembra che la cella sia già stata eseguita, e questo è il caso.

11:57.500 --> 12:03.830
Ma vedrai che tra pochi secondi vedremo un avatar, che è un file video che viene popolato qui.

12:03.830 --> 12:05.420
Apparirà in tipo dieci secondi.

12:05.690 --> 12:07.800
Posso persino fare un conto alla rovescia se vuoi.

12:08.120 --> 12:08.990
Quindi facciamolo.

12:09.200 --> 12:20.750
E dieci, nove, otto, sette, sei, cinque, quattro, tre, due, uno, via.

12:21.730 --> 12:24.070
E ora dovrebbe davvero apparire in pochi secondi.

12:24.100 --> 12:24.760
Sì, ci siamo.

12:25.150 --> 12:25.490
Tutto ok.

12:25.500 --> 12:28.390
Quindi il gameplay dell'agente, quell'idea, questo è il tuo video.

12:28.390 --> 12:36.640
Quindi scarichiamolo e verrà scaricato sul tuo computer, che troverò proprio qui.

12:36.730 --> 12:37.140
Destra.

12:37.180 --> 12:43.480
Questo è il gameplay dell'agente video che Evia si assicura di aprirlo con un lettore video che abbia codec come

12:43.480 --> 12:44.080
VLSI.

12:44.110 --> 12:44.430
Destra.

12:44.450 --> 12:48.930
Non funzionerà con Quick Time Player se utilizzi un Mac, ma funzionerà sicuramente con VLCC.

12:49.270 --> 12:50.110
Quindi diamo un'occhiata.

12:50.680 --> 12:52.160
Ed ecco il video.

12:52.210 --> 12:52.570
Tutto ok.

12:52.570 --> 12:54.850
Quindi fammi solo mettere in pausa qui.

12:55.240 --> 12:55.540
Tutto ok.

12:55.540 --> 12:56.230
Quindi ecco il video.

12:56.240 --> 13:01.260
E come puoi vedere, quindi questa è la dimensione di 256 per 256 del frame.

13:01.540 --> 13:03.070
Quindi, come puoi vedere, non è molto grande.

13:03.070 --> 13:03.330
Destra.

13:03.340 --> 13:08.030
Ecco perché volevo davvero lavorare con queste dimensioni invece di 80 per 80.

13:08.710 --> 13:10.060
Quindi ora diamo un'occhiata al video.

13:10.070 --> 13:15.970
Quindi questa è la A. IO. giocando a Doom in un episodio, e deve evitare che i mostri vengano uccisi.

13:15.970 --> 13:17.860
Deve andare avanti per raggiungere il meglio.

13:18.160 --> 13:22.090
Quindi vediamo come funziona tre a uno.

13:23.820 --> 13:29.970
Va bene, quindi prima si chiude, va avanti, ok, e poi è stato ucciso dai mostri,

13:29.970 --> 13:31.530
ma va comunque bene.

13:31.530 --> 13:36.240
Sai, ha capito che doveva andare avanti verso l'Ovest perché la ricompensa più alta è

13:36.240 --> 13:37.740
buona raggiungendo il giubbotto.

13:38.190 --> 13:42.720
E, naturalmente, sai, se vuoi davvero vedere il video della tua aria che raggiunge il giubbotto

13:42.720 --> 13:48.780
e vince a questa partita, in pratica dovrai allenare l'occhio per più epoche e magari fare qualche altro tipo di miglioramento, come

13:48.780 --> 13:54.210
sintonizzando il tuo cervello della A. IO. o facendo un po 'di regolazione dei parametri, come la regolazione

13:54.210 --> 13:55.010
della velocità di apprendimento.

13:55.170 --> 14:01.050
Bene, hai molte opzioni se qualcuno di voi ottiene un video fantastico o, sai, il video di A. IO. aver raggiunto una

14:01.050 --> 14:03.800
ricompensa di oltre 1000, per esempio.

14:03.810 --> 14:06.470
Bene, sentiti libero di condividerlo nelle domande e risposte.

14:06.480 --> 14:09.280
Sono sicuro che gli altri studenti saranno super felici di riceverlo.

14:09.870 --> 14:10.480
Tutto ok.

14:10.500 --> 14:14.770
Quindi spero che ti sia piaciuto implementare il modello di apprendimento profondo e convoluzionale.

14:15.010 --> 14:19.770
Ora passeremo alla parte successiva, che riguarderà l'implementazione del modello H3C e un

14:19.770 --> 14:24.800
modello ancora migliore e più potente che verrà implementato per giocare al gioco del breakout.

14:25.140 --> 14:26.840
Quindi ci vediamo nella prossima parte.

14:26.850 --> 14:28.590
E fino ad allora, goditi A. IO..