WEBVTT

00:01.340 --> 00:02.810
Ciao e bentornato.

00:03.200 --> 00:10.010
Nell'ultima lezione, hai visto come utilizziamo le nostre funzioni di supporto per impostare davvero il nucleo delle nostre funzionalità per addestrare

00:10.010 --> 00:11.300
i nostri modelli.

00:11.300 --> 00:16.370
Quindi avevamo il nostro stato terminale, la nostra posizione di partenza, la nostra prossima azione, la prossima posizione e il

00:16.370 --> 00:21.230
percorso più breve definisce davvero la maggior parte di come il nostro agente o come funzionerà il nostro ambiente.

00:21.560 --> 00:25.460
L'ultima cosa che dobbiamo fare è usare la nostra formazione per usare la nostra formazione.

00:25.460 --> 00:31.280
È piuttosto semplice nel senso di ciò che dobbiamo includere, ma il modo in cui lo facciamo è una storia

00:31.280 --> 00:31.670
diversa.

00:32.240 --> 00:36.800
Detto questo, inoltre, se voi ragazzi usate un approccio diverso o volete personalizzarlo e

00:36.800 --> 00:38.300
sperimentarlo, è altamente raccomandato.

00:38.600 --> 00:42.410
Inoltre, se utilizzi un approccio diverso e vuoi discuterne, non esitare a condividere le

00:42.410 --> 00:43.520
domande e risposte.

00:43.730 --> 00:45.410
Più che felice di discuterne con te.

00:45.410 --> 00:50.480
È una grande idea perché ci sono così tanti modi per risolverlo e potresti trovare

00:50.480 --> 00:52.190
un modo migliore, più vantaggioso.

00:52.190 --> 00:55.520
Potremmo guardare di nuovo ai pro e ai contro, più che felici di discuterne.

00:55.670 --> 00:56.030
Va bene.

00:56.090 --> 00:57.260
Allora cosa dobbiamo fare?

00:57.260 --> 00:58.880
Dobbiamo lanciare la nostra formazione.

00:59.210 --> 00:59.990
Per la nostra formazione

00:59.990 --> 01:01.490
Vogliamo usare l'Epsilon.

01:01.490 --> 01:08.930
Quindi, in pratica, la percentuale che prenderemo per l'azione migliore per R invece di un'azione casuale.

01:08.930 --> 01:15.650
Quindi impostiamo il nostro epsilon e lo impostiamo a 0. 9 e faremo qualcosa di simile con i nostri valori per il nostro fattore

01:15.650 --> 01:17.900
di sconto e il nostro tasso di apprendimento.

01:18.140 --> 01:23.030
Quindi facciamo un fattore di sconto uguale a 0. 9.

01:23.690 --> 01:29.480
Prendiamo anche il nostro tasso di apprendimento e impostiamolo su 0. 9.

01:29.900 --> 01:33.620
Questo sarà il tasso che il nostro agente imparerà o dovrebbe imparare.

01:33.920 --> 01:39.140
E vogliamo anche prendere il numero di episodi di allenamento, chiamiamolo così, e di episodi di allenamento.

01:39.290 --> 01:41.300
Quindi abbiamo una serie di episodi di formazione.

01:41.300 --> 01:42.500
Mettiamolo a mille.

01:42.500 --> 01:46.400
Quante volte si allenerà o in quanti episodi si allenerà?

01:48.050 --> 01:48.500
Eccezionale.

01:49.130 --> 01:52.870
Ora, essenzialmente quello che vogliamo fare è scorrere ogni episodio.

01:52.880 --> 02:00.060
Vogliamo prendere la gamma del nostro numero di episodi di allenamento e impostare il nostro fondamentalmente il nostro epsilon.

02:00.080 --> 02:01.760
Vogliamo trovare la nostra differenza temporale.

02:01.760 --> 02:04.610
Per impostarlo, dobbiamo guardare alcuni valori Q precedenti.

02:04.610 --> 02:08.210
Dobbiamo calcolare la nostra posizione di partenza nel nostro indice di azione.

02:08.660 --> 02:10.520
Quindi iniziamo.

02:11.060 --> 02:12.440
Facciamo un grande giro.

02:12.450 --> 02:14.450
Quindi abbiamo i nostri quattro episodi.

02:16.810 --> 02:19.780
Nella gamma del nostro numero di episodi di formazione.

02:22.060 --> 02:22.540
Eccoci qui.

02:22.690 --> 02:31.360
Salvo errori di sintassi da parte mia, vogliamo prendere l'indice di riga e l'indice di colonna per la nostra griglia per il

02:31.360 --> 02:33.700
nostro Ms. indice di colonna.

02:36.080 --> 02:41.240
E detto una posizione di partenza target, abbiamo bisogno di una posizione di partenza.

02:41.240 --> 02:44.210
Quindi facciamo quell'ora povera ogni episodio.

02:45.100 --> 02:49.300
Ora possiamo impostare il nostro stato terminale mentre.

02:51.180 --> 02:51.690
Non.

02:52.850 --> 02:56.110
È lo stato terminale.

02:56.360 --> 03:01.280
Vogliamo esaminare l'indice di riga e l'indice di colonna.

03:02.330 --> 03:02.720
Bene.

03:03.110 --> 03:07.160
Quindi, impostiamo il nostro indice di azione per la nostra prossima azione.

03:07.430 --> 03:08.990
Quindi abbiamo bisogno della nostra prossima azione.

03:08.990 --> 03:16.550
Poiché questo agente scorre i mezzi per il nostro indice di azione, possiamo utilizzare la nostra azione successiva.

03:17.770 --> 03:24.730
E possiamo usare il nostro indice di colonna di indice di riga e chiamiamo il nostro epsilon.

03:24.730 --> 03:29.620
Quindi vogliamo avere questo invece della nostra azione casuale, usiamo l'indice di colonna.

03:31.930 --> 03:33.610
E abbiamo bisogno di Epsilon.

03:34.270 --> 03:34.650
Eccezionale.

03:35.320 --> 03:36.610
Se potessi scrivere correttamente.

03:36.610 --> 03:38.950
Qui, vogliamo Epsilon.

03:39.790 --> 03:41.380
Va bene, lasciami cancellare questo.

03:41.680 --> 03:42.070
Bene.

03:42.460 --> 03:46.930
Fammi prendere il resto del codice e lo esamineremo in modo da non dovermi guardare mentre scrivo

03:47.350 --> 03:47.980
ogni riga.

03:48.400 --> 03:51.440
Ma tienilo a mente come vogliamo avvicinarci a questo.

03:51.460 --> 03:54.940
Compensando la vecchia riga, avremmo bisogno di un vecchio indice di riga.

03:55.180 --> 04:00.130
Vorremmo anche avere i premi per le nostre colonne e le nostre righe.

04:00.370 --> 04:05.140
Dobbiamo dare un'occhiata ai valori della coda e ai vecchi valori della coda e dobbiamo calcolare la nostra differenza

04:05.140 --> 04:05.620
temporale.

04:06.190 --> 04:06.640
Bene.

04:06.880 --> 04:09.820
Quindi vedi la modifica nel codice o l'aggiornamento del codice.

04:10.030 --> 04:16.150
Stiamo prendendo il nostro vecchio indice di riga e il nostro vecchio indice di colonna per esaminare il nostro indice di riga e l'indice di colonna.

04:16.480 --> 04:20.020
Il nostro indice della colonna dell'indice di riga è uguale alla nostra posizione successiva.

04:20.020 --> 04:24.070
E la nostra prossima posizione richiederebbe l'indice di riga, la colonna, l'indice e l'azione.

04:25.280 --> 04:27.110
Infine, stiamo esaminando una ricompensa.

04:27.710 --> 04:34.580
I nostri vecchi valori Q sarebbero valori Q con il vecchio indice di riga, il vecchio indice di colonna e ancora, facendo riferimento

04:34.580 --> 04:40.640
al nostro indice di azione e al calcolo della nostra differenza temporale, che è la nostra ricompensa, più il fattore

04:40.640 --> 04:47.630
di sconto moltiplicato per i valori Q con la riga indice e indice di colonna meno il vecchio valore Q dal valore Q

04:47.630 --> 04:48.140
precedente.

04:49.980 --> 04:55.980
Abbiamo quasi finito dove abbiamo bisogno del nostro nuovo valore Q, che è il nostro vecchio valore di cue, più il tasso

04:55.980 --> 05:03.330
di apprendimento, i tempi, la differenza temporale e i nostri valori di cue con il vecchio indice di riga nel nostro vecchio indice di colonna uguale al nuovo

05:03.360 --> 05:04.320
valore di cue.

05:05.770 --> 05:09.850
Se volete discuterne ulteriormente, ancora una volta, vi consiglio vivamente di fare domande e risposte.

05:09.850 --> 05:11.080
Sentiti libero di stampare.

05:11.320 --> 05:13.630
Prova a sperimentare tutte le variabili utilizzate qui.

05:13.630 --> 05:18.430
Se vuoi vedere la loro forma, vedere come possono essere utilizzati, a cosa si riferisce, lo consiglio vivamente e

05:18.430 --> 05:20.380
sono più che felice di discuterne ulteriormente.

05:21.130 --> 05:24.430
Un'ultima cosa che possiamo fare, quindi abbiamo una piccola notifica.

05:24.700 --> 05:29.950
Aggiungiamo una dichiarazione di stampa in modo da sapere quando l'addestramento è completo per le nostre mille righe.

05:29.980 --> 05:30.580
Va bene.

05:30.970 --> 05:34.570
Se non ci sono errori di sintassi da parte mia, dovremmo essere a posto.

05:34.600 --> 05:36.730
Il blocco appunti delle colonne viene inizializzato.

05:36.730 --> 05:38.610
Ho eseguito di nuovo tutto, quindi fammi eseguire questo.

05:38.620 --> 05:41.410
Dovrebbe essere molto veloce poiché stiamo usando solo numpy.

05:41.620 --> 05:43.750
È un modello molto ottimizzato in un certo senso.

05:44.050 --> 05:46.840
Fammi fare clic su questo e cercheremo quindi il percorso più breve.

05:48.310 --> 05:48.750
Va bene.

05:48.760 --> 05:50.020
Abbiamo la nostra formazione completa.

05:50.590 --> 05:54.760
Stampiamo anche il percorso più breve per alcune opzioni di partenza.

05:54.760 --> 05:59.650
Quindi stiamo iniziando una riga tre, colonna nove con l'opzione del percorso più breve con il nostro percorso più breve.

06:00.130 --> 06:06.670
Vogliamo guardare la riga cinque e zero e a partire dalla riga nove e la colonna numero cinque.

06:07.120 --> 06:08.080
Stampiamoli.

06:08.890 --> 06:09.370
Eccezionale.

06:09.370 --> 06:12.280
Abbiamo il percorso più breve, ma non abbiamo finito.

06:12.460 --> 06:13.390
Ci siamo quasi.

06:13.930 --> 06:20.650
Possiamo vedere il nostro postino ottenere automaticamente il percorso più breve da una posizione legale che possiamo considerare dalla nostra

06:20.650 --> 06:22.780
città all'area di confezionamento degli articoli.

06:22.790 --> 06:27.430
Ma che ne sarebbe del contrario allo scenario opposto, sostanzialmente riferito a, sai, il nostro postino

06:27.430 --> 06:31.090
può consegnare un articolo da qualsiasi parte della città all'area di confezionamento?

06:31.390 --> 06:37.510
Ma dopo l'articolo dovrebbe andare da quella zona, dall'area di imballaggio a un altro luogo della

06:37.510 --> 06:40.180
città, perché dovrebbe ritirare l'articolo successivo.

06:40.660 --> 06:43.780
Quindi cosa possiamo fare per risolvere questo?

06:43.780 --> 06:45.220
Ed in realtà è piuttosto semplice.

06:45.400 --> 06:47.890
È possibile modificare l'ordine del percorso più breve.

06:48.730 --> 06:51.940
Prova a pensarci per un secondo e poi questa sarebbe la soluzione.

06:53.320 --> 06:55.110
Possiamo usare il percorso più breve.

06:55.120 --> 07:00.550
Quindi prendiamo scritto cinque e colonna due e quindi tutto ciò che dovresti fare è usare l'opzione inversa con

07:00.550 --> 07:01.150
Python.

07:01.270 --> 07:04.270
Usiamo il punto del percorso inverso e potremmo stampare il percorso.

07:04.570 --> 07:06.040
Quindi stiamo guardando cinque più due.

07:07.050 --> 07:07.800
E ci andiamo.

07:07.800 --> 07:09.220
Abbiamo il percorso più breve.

07:09.420 --> 07:14.250
Ed è davvero utile se vuoi prendere l'immagine nella cella e portarla giù per confrontare e guardare

07:14.250 --> 07:14.910
quei percorsi.

07:14.910 --> 07:20.310
Ma puoi effettivamente vedere il percorso se prendi la dichiarazione stampata, guardi la colonna nell'ordine

07:20.310 --> 07:23.250
e vedi come sta viaggiando il venditore.

07:23.250 --> 07:25.560
Che lavoro fantastico che stai usando.

07:25.770 --> 07:26.610
Q Apprendimento.

07:26.880 --> 07:32.550
Quello che abbiamo imparato da questo corso ha un piccolo bonus e uno scenario divertente nella sezione per risolvere

07:32.550 --> 07:35.070
questo tipo di problema essenzialmente del venditore ambulante.

07:35.070 --> 07:40.770
Stiamo esaminando il postino per consegnare pacchi e articoli in città per trovare le opzioni più brevi e i percorsi

07:40.770 --> 07:41.640
più brevi.

07:41.670 --> 07:47.400
Consiglio vivamente di personalizzare, testare altre opzioni, modificare i parametri iper e, se scopri

07:47.400 --> 07:53.670
qualcosa di meglio, se scopri dei parametri ottimizzati o migliori da utilizzare, non esitare a condividerli nelle

07:53.670 --> 07:54.990
domande e risposte.

07:55.620 --> 07:56.280
Sorprendente.

07:56.300 --> 07:58.110
Spero che questo vi sia piaciuto davvero.

07:58.320 --> 08:01.350
Per favore personalizza, sperimenta e continua ad imparare.

08:01.380 --> 08:02.970
È così divertente lavorare con te.

08:02.970 --> 08:04.820
Imparare e divertirsi I.
