WEBVTT

00:00.630 --> 00:04.800
Ciao e bentornati al corso sull'apprendimento approfondito oggi parliamo del pooling di Max

00:04.800 --> 00:07.380
e abbiamo alcune diapositive molto interessanti in arrivo.

00:07.500 --> 00:10.930
E anche una sorpresa speciale alla fine del tutorial.

00:11.010 --> 00:12.440
Quindi iniziamo.

00:12.450 --> 00:15.860
La prima domanda è cosa si sta mettendo in comune e perché ne abbiamo bisogno.

00:16.050 --> 00:19.650
Bene, per rispondere a questa domanda diamo un'occhiata a queste immagini su queste immagini.

00:19.650 --> 00:20.780
Abbiamo un ghepardo.

00:20.790 --> 00:23.680
In effetti è lo stesso ghepardo sulla prima immagine.

00:23.680 --> 00:29.640
Quella immagine è posizionata correttamente e ti guarda dritto sulla seconda immagine.

00:29.640 --> 00:30.660
È un po 'ruotato.

00:30.660 --> 00:32.710
E la terza immagine un po 'schiacciata.

00:32.790 --> 00:40.020
E la cosa qui è che vogliamo che la rete neurale sia in grado di riconoscere il ghepardo in

00:40.020 --> 00:41.450
ognuna di queste immagini.

00:41.460 --> 00:43.230
In realtà questo è solo un ghepardo.

00:43.230 --> 00:45.070
Cosa succede se abbiamo un sacco di diversi tiratori.

00:45.090 --> 00:46.120
Ecco un ghepardo.

00:46.180 --> 00:47.250
Lui è un ghepardo.

00:47.400 --> 00:53.130
Ecco un altro ghepardo, la sua Ashira, il suo ghepardo di Ishida e lui un ghepardo, e

00:53.130 --> 01:01.110
vogliamo che la rete neurale riconosca tutti questi tiratori come imbroglioni e come può farlo se tutti guardano in direzioni diverse sono tutti in

01:01.110 --> 01:06.300
parti diverse del immagine sono come se i loro volti fossero posizionati in diverse parti

01:06.300 --> 01:10.080
dell'immagine qualcuno è sul lato destro qualcuno nell'angolo sinistro o qualcuno

01:10.080 --> 01:10.700
nel mezzo.

01:11.010 --> 01:14.280
Sono tutti un po 'diversi e la trama è un po' diversa.

01:14.280 --> 01:16.200
L'illuminazione è un po 'diversa.

01:16.200 --> 01:21.600
Ci sono molte piccole differenze e quindi se la rete neurale cerca esattamente una certa caratteristica,

01:21.810 --> 01:29.700
ad esempio, una caratteristica distintiva del ghepardo sono le lacrime che sono sul suo viso che vanno dagli occhi o le ombre The

01:29.700 --> 01:35.310
Shadow che sembrano lacrime la trama di il modello che va dai suoi occhi in basso

01:35.310 --> 01:40.890
è ai lati del suo naso e sembra lacrime che è una caratteristica distintiva del ghepardo.

01:40.890 --> 01:48.660
Ma se sta cercando quella caratteristica che ha imparato da certi ghepardi in una posizione esatta o una forma o

01:48.660 --> 01:53.370
una forma esatta o una texture, non troverà mai questi altri tiratori.

01:53.460 --> 02:01.410
ma non deve preoccuparsi se le caratteristiche sono un po 'inclinate se le caratteristiche sono un po' diverse nella

02:01.440 --> 02:10.170
trama se le caratteristiche sono un po 'più vicine alle caratteristiche o un po' più distanti relativo a relativo l'uno all'altro.

02:10.520 --> 02:16.460
Quindi dobbiamo assicurarci che la nostra rete neurale abbia una proprietà chiamata invarianza spaziale, il

02:16.800 --> 02:23.400
che significa che non gli interessa dove le caratteristiche sono di nuovo non tanto come prurito

02:23.400 --> 02:29.940
quale parte dell'immagine, perché in considerazione con la nostra mappa siamo poveri con il nostro convoluzionale

02:29.940 --> 02:30.210
lì,

02:30.210 --> 02:37.230
Quindi, se la funzionalità stessa è un po 'distorta, la nostra rete neurale deve avere un certo livello di flessibilità per

02:37.410 --> 02:39.930
essere in grado di trovare ancora quella caratteristica.

02:40.050 --> 02:42.690
E questo è tutto ciò che accomuna.

02:42.690 --> 02:45.140
Diamo un'occhiata a come funziona il pooling.

02:45.180 --> 02:51.090
Ecco la nostra mappa delle caratteristiche, così abbiamo già fatto la nostra convoluzione e abbiamo completato quella parte e ora

02:51.090 --> 02:52.680
stiamo lavorando con il convoluzionale lì.

02:52.680 --> 02:53.880
Ora applicheremo il pooling.

02:53.880 --> 02:54.690
Quindi, come funziona.

02:54.690 --> 02:56.420
Stiamo per applicare il pooling.

02:56.670 --> 03:01.640
Ci sono molti diversi tipi di regole di gioco che significano il pooling di Max che raggruppa alcuni pool e

03:01.710 --> 03:03.440
commenteranno quelli verso la fine della storia.

03:03.540 --> 03:11.040
nell'angolo in alto a sinistra e trovi il valore massimo in quella casella e poi registri solo quel valore e trascuri gli altri tre.

03:11.040 --> 03:15.020
Ma per ora stiamo solo applicando il pool di Max, quindi prendiamo

03:15.030 --> 03:21.900
una scatola di due per due pixel come quella e ancora non è necessario che due per due sia possibile scegliere

03:21.900 --> 03:26.310
qualsiasi dimensione di box e di nuovo si commenterà verso Tauriel e lo posiziona

03:26.310 --> 03:30.600
Quindi nella tua casella hai quattro valori che non ti fanno caso a tre, mantieni solo il massimo che

03:30.600 --> 03:31.830
è uno in questo caso.

03:31.830 --> 03:36.210
Quindi muovi la tua casella a destra con passo per selezionare nuovamente la falcata.

03:36.210 --> 03:41.850
Quindi qui scivoliamo a due falcate ed è quello che normalmente si sente dire che si può scegliere come il passo

03:41.850 --> 03:42.880
che si può scegliere.

03:42.990 --> 03:47.940
Quindi ci sono caselle sovrapposte che puoi selezionare qualsiasi tipo di colpo che ti piace anche tre se vuoi, ma

03:48.770 --> 03:52.440
stiamo selezionando un passo di due qui ed è quello che viene comunemente usato.

03:52.470 --> 03:57.660
E poi ripeti la ripetizione del processo in cui registri la massima qui se passi sopra e non

03:57.660 --> 04:00.080
importa, continua semplicemente a fare quello che stai facendo.

04:00.090 --> 04:05.690
Quindi registra ancora il massimo qui 0 qui il massimo è quattro.

04:05.700 --> 04:11.380
Qui ci sono i massimi di qui il massimo è 1 0 1 o 2 e poi 1.

04:11.400 --> 04:13.970
Quindi, come puoi vedere, sono successe alcune cose.

04:13.980 --> 04:18.890
Prima di tutto eravamo ancora in grado di preservare le funzionalità giuste.

04:19.080 --> 04:23.730
I numeri massimi che rappresentano perché sappiamo come funziona la conclusione di Lehre.

04:23.730 --> 04:28.650
Sappiamo che i numeri massimi o grandi nella mappa delle caratteristiche rappresentano dove hai effettivamente

04:28.650 --> 04:31.480
trovato la somiglianza più vicina a una funzione.

04:31.650 --> 04:38.250
Ma mettendo insieme queste funzionalità, stiamo innanzitutto eliminando il 75% delle informazioni che

04:38.250 --> 04:46.110
non sono la caratteristica che non sono le cose importanti che stiamo cercando perché siamo

04:46.220 --> 04:49.410
solo tre pixel su quattro .

04:49.710 --> 04:51.510
Quindi riceviamo solo il 25 percento.

04:51.510 --> 05:00.260
il massimo dei pixel che noi oi valori che abbiamo noi stiamo quindi calcolando per ogni distorsione.

05:00.770 --> 05:04.160
E poi anche perché stiamo prendendo

05:04.160 --> 05:12.810
Quindi per esempio due immagini in cui ad esempio le lacrime degli imbroglioni sugli occhi sono in una immagine là un po 'a sinistra o un

05:12.830 --> 05:16.550
po' ruotate a sinistra e un altro là un po '.

05:16.580 --> 05:22.100
E sono come dovrebbero essere o come ci piacciono se ne prendi uno come base e un altro ci

05:22.100 --> 05:23.800
sono dei bit ruotati a sinistra.

05:24.060 --> 05:26.570
La funzionalità puled sarà esattamente la stessa.

05:26.570 --> 05:32.900
Quindi puoi vedere qui se stiamo parlando delle lacrime del cheater, diciamo che questo è il quattro ed è

05:32.900 --> 05:36.050
qui che era qui, se fosse un po 'ruotato.

05:36.050 --> 05:38.270
Quindi ad esempio i quattro finirono qui.

05:38.390 --> 05:44.180
Poi, quando stiamo facendo il pool, avremo ancora la stessa mappa delle funzionalità del pool e questo è

05:44.180 --> 05:46.270
il principio su cui si basa.

05:46.430 --> 05:52.340
È una spiegazione molto approssimativa ancora una volta spiegazione intuitiva, ma questo è il punto di

05:52.340 --> 06:00.290
messa in comune che siamo ancora in grado di preservare le caratteristiche e inoltre conto per il loro possibile spaziale o strutturale

06:00.290 --> 06:02.330
o di altri tipi di distorsioni.

06:02.420 --> 06:07.370
E oltre a tutto ciò stiamo riducendo le dimensioni, quindi c'è un altro vantaggio.

06:07.370 --> 06:13.520
del 75%, il che è enorme e ci aiuterà davvero in termini di elaborazione.

06:13.520 --> 06:19.700
Quindi abbiamo conservato le funzionalità che stiamo introducendo invarianti spaziali, stiamo riducendo le dimensioni

06:19.870 --> 06:25.970
Inoltre, un altro vantaggio del pooling è la riduzione del numero di parametri, quindi stiamo riducendo di

06:26.690 --> 06:31.370
nuovo del 75% o riducendo il numero di parametri che verranno inseriti nei

06:31.370 --> 06:35.270
nostri Lares finali della rete neurale e pertanto evitiamo il sovradattamento.

06:35.300 --> 06:42.580
È un vantaggio molto importante del pooling che stiamo rimuovendo le informazioni e questa è una buona cosa.

06:42.590 --> 06:50.660
in questo modo il nostro modello non sarà in grado di adattarsi troppo a quell'informazione perché specialmente perché quell'informazione non sta bene e ricorda

06:50.690 --> 06:54.500
come all'inizio stiamo parlando anche di umani come gli umani è

06:54.950 --> 07:00.650
importante vedere esattamente le caratteristiche piuttosto che tutto questo altro rumore che sta venendo nei nostri occhi.

07:00.650 --> 07:02.520
Questa è una buona cosa perché

07:02.780 --> 07:09.070
Beh, la stessa cosa per le reti neurali ignorando la formazione non importante non

07:09.080 --> 07:12.470
necessaria ci aiuta a prevenire il sovradattamento.

07:12.500 --> 07:14.590
Quindi eccoci qui, di cui parla la messa in comune.

07:14.600 --> 07:21.500
E la domanda qui è, naturalmente, perché il pooling di WiMax ci sia un sacco di diversi tipi di pooling e

07:21.710 --> 07:26.780
una vasta gamma di dimensioni troppo grandi di due per due pixel molte di queste cose.

07:26.780 --> 07:33.980
quella nota vorrei presentarvi questo bel documento di ricerca chiamato valutazione delle operazioni di pooling in

07:33.980 --> 07:40.250
architetture convoluzionali per il riconoscimento degli oggetti di Dominic Scherrer dell'Università di Bonn.

07:40.250 --> 07:41.100
E su

07:41.180 --> 07:47.540
C'è il collegamento e la bellezza di questo articolo è che è molto semplice molto semplice Quindi, se non hai

07:47.550 --> 07:51.530
mai letto un documento di ricerca prima di quello che ti piacerebbe fare.

07:51.530 --> 07:54.440
Questo è un ottimo punto di partenza è molto breve.

07:54.440 --> 07:55.400
Solo 10 pagine.

07:55.400 --> 07:56.810
Molto facile da leggere.

07:57.080 --> 08:03.170
E in più, il vantaggio in più è che ora che abbiamo discusso della convoluzione e della condivisione, ti sentirai totalmente

08:03.170 --> 08:07.040
a tuo agio con tutto ciò di cui stanno parlando in questo articolo.

08:07.100 --> 08:11.880
Questo è un ottimo modo per rinforzare e inoltre consiglio vivamente di controllare questo documento.

08:11.930 --> 08:18.050
Prenderò 20 minuti per leggerlo e puoi anche saltare la parte 2 che viene chiamata lavoro correlato se si

08:18.050 --> 08:19.880
sente un po 'inverosimile o alienante.

08:19.880 --> 08:21.230
Basta non leggere quella parte.

08:21.290 --> 08:23.950
Vai direttamente dalla parte 1 alla parte 3.

08:24.020 --> 08:29.600
E una cosa che devi sapere su questo articolo si parla di un concetto chiamato sottocampionamento

08:30.360 --> 08:33.230
che è sottocampionamento è fondamentalmente il pooling medio.

08:33.230 --> 08:36.260
Quindi ricorda come stavamo prendendo.

08:36.280 --> 08:37.400
Stiamo prendendo il massimo.

08:37.400 --> 08:43.250
Quindi nel nostro squadratore prendendo il valore massimo c'è un concetto chiamato Mean pooling o alcuni tirando un po

08:43.250 --> 08:48.590
'mentre voi solo alcuni di questi valori su pool medio o pool di media si prende il

08:48.650 --> 08:53.890
valore medio di tutti questi e sottocampionamento è un po' come una generalizzazione di uomini in pool

08:53.900 --> 09:00.840
È un approccio più generale alla media di questi valori.

09:00.860 --> 09:05.480
E puoi leggere un po 'di più sul giornale, ma per il resto pensalo come un pool medio

09:05.480 --> 09:06.620
quando stai leggendo un giornale.

09:06.920 --> 09:11.180
che puoi ottenere alcune informazioni aggiuntive su questo argomento e ora tipo di ricapitolare dove siamo arrivati.

09:11.210 --> 09:12.310
E quindi è qui

09:12.320 --> 09:14.440
Quindi c'è la nostra immagine di input.

09:14.870 --> 09:18.960
Quindi abbiamo applicato l'operazione di convoluzione e abbiamo ottenuto la conclusione.

09:19.070 --> 09:24.230
E ora a ognuna di quelle mappe di caratteristiche che otteniamo Abbiamo applicato il Pullinger.

09:24.260 --> 09:30.590
Quindi abbiamo fatto questi due passaggi di evoluzione e di condivisione e ora faremo qualcosa di molto

09:30.590 --> 09:32.160
divertente, qualcosa di eccitante.

09:32.220 --> 09:40.340
quindi questo è uno screenshot che ho preso da uno strumento creato da Adam Harley nel lontano passato quando

09:40.340 --> 09:48.140
era alla Ryerson University di informatica e ora è al Carnegie Mellon che penso stia facendo la sua pagina.

09:48.320 --> 09:49.750
Sperimenteremo con questo,

09:50.060 --> 09:53.150
E un ottimo strumento quindi apriamoci diamo un'occhiata.

09:53.270 --> 09:55.780
Così puoi trovarlo puoi trovarlo effettivamente tramite Google.

09:55.780 --> 09:57.500
Devi conoscere il tuo ruolo.

09:57.500 --> 10:03.790
È come è difficile trovarlo tramite Google perché non c'è testo qui come lo eravamo solo quest'anno.

10:03.930 --> 10:08.350
Vedrò di iniziare il dossier Reierson e questa roba.

10:08.510 --> 10:14.820
In pratica, questo è esattamente ciò che stiamo facendo, ma visualizziamo. Quindi qui devi disegnare un

10:14.820 --> 10:21.330
numero così dire che disegno il numero quattro e questo strumento inserirà il numero quattro qui.

10:21.340 --> 10:22.960
Questa è la tua immagine.

10:22.960 --> 10:26.620
Nel nostro primo passo, questo è il passo della convoluzione.

10:26.800 --> 10:27.100
Destra.

10:27.100 --> 10:30.390
E questo è il passo di raggruppamento e anche il raggruppamento tra l'altro è anche chiamato downsampling.

10:30.390 --> 10:33.770
Quindi tirare e downsampling sono le stesse cose.

10:33.930 --> 10:39.190
Quindi puoi vedere che è la convoluzione applicata, quindi viene applicata la condivisione e puoi vedere come funziona esattamente.

10:39.190 --> 10:44.290
Puoi vedere che tipo di convinzioni ha applicato o che tipo di filtri è applicato a

10:44.290 --> 10:45.020
cosa assomigliano.

10:45.130 --> 10:47.630
Quali caratteristiche sta cercando.

10:47.830 --> 10:53.340
E poi viene applicato il pooling in modo che riduca le dimensioni e puoi vedere qui che questo è importante.

10:53.380 --> 11:01.090
Quindi puoi vedere che questa è l'immagine convoluta e questa è l'immagine puled e puoi ancora vedere le stesse

11:01.090 --> 11:05.830
caratteristiche sono solo meno informazioni, ma le stesse funzioni sono mantenute.

11:05.830 --> 11:08.110
Questa è la parte importante.

11:08.350 --> 11:14.170
E inoltre, se sai che tutti e quattro erano un po 'troppo simili a quelli ruotati un po' di lato, sarebbe

11:14.170 --> 11:16.960
comunque in grado di raccogliere Lares molto simile alla piscina.

11:17.050 --> 11:19.810
E poi dopo ci sono altre lettere di cui non abbiamo ancora parlato.

11:19.810 --> 11:26.840
Quindi ha un altro convoluogo, una tana convoluzionale, che in realtà non avremo.

11:27.130 --> 11:30.730
E poi ha un altro povero covo, ma sta praticamente ripetendo lo stesso processo.

11:31.000 --> 11:34.880
E poi dopo questo è quello che parleremo più avanti nel corso.

11:34.910 --> 11:37.610
Ha il Lares pienamente connesso e così via.

11:38.080 --> 11:39.880
Ma puoi sicuramente giocare con quello.

11:39.880 --> 11:47.890
Quindi se cancelli quello che ti piace se disegno un 7 vedrai che in realtà ti dice che l'ipotesi è un'ipotesi è che

11:47.890 --> 11:49.410
questo è un 7.

11:49.570 --> 11:52.850
E la seconda ipotesi è che la seconda verosimiglianza è tre.

11:53.050 --> 11:56.440
Quindi puoi disegnare alcune cose stimolanti e vedere se può prenderle.

11:56.440 --> 12:02.680
Quindi diciamo che se disegno qualcosa che assomiglia a uno 0 ma non è finito 0 lo riprenderà questa volta

12:02.770 --> 12:03.730
non lo raccolse.

12:03.730 --> 12:06.190
Sembra un 9 per quello all'immagine.

12:06.190 --> 12:08.550
E se mi piacerebbe finirlo in quel modo.

12:08.560 --> 12:14.430
Quindi ora pensa che sia uno 0 o un 9 e puoi vedere là cosa sta accendendo lo 0.

12:14.460 --> 12:16.600
Ma parleremo di quella parte per il dubbio.

12:16.720 --> 12:20.030
Ne parliamo ancora uno come 8.

12:20.260 --> 12:23.780
Penso che sia abbastanza difficile per questo ora ha raccolto un 8.

12:23.800 --> 12:29.590
Quindi puoi vedere che entra in un 8 e poi come dopo che smette di essere riconoscibile le

12:29.590 --> 12:31.570
fermate hanno senso per noi umani.

12:31.570 --> 12:32.150
Destra.

12:32.170 --> 12:34.390
Queste funzionalità con cui sta lavorando.

12:34.570 --> 12:38.710
Ma allo stesso tempo riconosce correttamente che è un 8.

12:39.100 --> 12:42.540
Quindi, sicuramente gioca con questo, puoi disegnare una faccina sorridente.

12:42.550 --> 12:43.460
Cosa succede allora.

12:44.310 --> 12:50.070
Sembra un terzo a questo strumento perché lo strumento è ovviamente addestrato solo su cifre da

12:50.070 --> 12:50.950
0 a nove.

12:51.120 --> 12:58.530
Quindi deve riconoscere qualcosa ci sono quelli e riconosce un tre è come nella vita quando tu quando vedi qualcosa come un

12:58.530 --> 13:05.700
tipo di frutto che non hai mai visto prima come una crema pasticcera o qualcosa del genere e pensi che sia

13:06.120 --> 13:12.570
come se fosse un pera perché non ne hai mai visto uno prima di non sapere come classificarlo come

13:12.570 --> 13:18.210
la stessa cosa qui, quindi non è stato addestrato su faccine ed è per questo che pensa

13:18.210 --> 13:20.480
che sia un albero come un albero.

13:20.490 --> 13:25.770
sarà utile per giocarci davvero quando metti il ​​mouse sopra un pixel pixel che mostrerà.

13:26.130 --> 13:29.430
Quindi, ecco un potente strumento molto potente che ti

13:29.430 --> 13:36.930
Ti mostra il punto in cui il rilevatore di caratteristiche è stato in grado di rilevare quel pixel in modo da

13:36.930 --> 13:43.170
poter vedere da dove provengono quei pixel e puoi anche vedere come il filtro è come guardare

13:43.170 --> 13:47.910
l'immagine esattamente di come abbiamo parlato e ovviamente e qui puoi vedere che

13:47.910 --> 13:58.140
puoi vedere il raggruppamento in cui puoi vedere che la trazione è fatta con il tiro è fatto con una piccola dimensione quadrata di due a due e puoi

13:58.200 --> 14:03.730
vedere che è un passo falso di due, proprio come abbiamo discusso nel tutorial di oggi.

14:03.960 --> 14:09.240
Quindi vai a giocare o divertiti con questo e spero che ti sia piaciuta la sessione di oggi.

14:09.240 --> 14:10.610
Non vedo l'ora di vederti la prossima volta.

14:10.620 --> 14:12.470
E fino ad allora godere di un apprendimento profondo.