WEBVTT

00:00.630 --> 00:04.800
Bonjour et bienvenue au cours sur l'apprentissage en profondeur aujourd'hui, nous parlons de la mise en commun

00:04.800 --> 00:07.380
Max et nous avons quelques diapositives très intéressantes à venir.

00:07.500 --> 00:10.930
Et même une surprise spéciale à la toute fin du tutoriel.

00:11.010 --> 00:12.440
Alors, commençons.

00:12.450 --> 00:15.860
La première question est: qu'est-ce que la mise en commun et pourquoi en avons-nous besoin?

00:16.050 --> 00:19.650
Eh bien, pour répondre à cette question, regardons ces images sur ces images.

00:19.650 --> 00:20.780
Nous avons un guépard.

00:20.790 --> 00:23.680
En fait c'est exactement le même guépard que sur la première image.

00:23.680 --> 00:29.640
Cette image est correctement positionnée et elle vous regarde directement sur la deuxième image.

00:29.640 --> 00:30.660
C'est un peu tourné.

00:30.660 --> 00:32.710
Et la troisième image un peu écrasée.

00:32.790 --> 00:40.020
Nous souhaitons que le réseau de neurones soit capable de reconnaître le guépard dans chacune de

00:40.020 --> 00:41.450
ces images.

00:41.460 --> 00:43.230
En fait, ce n'est qu'un guépard.

00:43.230 --> 00:45.070
Et si nous avons beaucoup de tireurs différents.

00:45.090 --> 00:46.120
Voici un guépard.

00:46.180 --> 00:47.250
C'est un guépard.

00:47.400 --> 00:53.130
Voici un autre guépard son Ashira son guépard Ishida et lui un guépard et nous voulons que

00:53.130 --> 01:01.110
le réseau de neurones reconnaisse tous ces tireurs comme des tricheurs et comment peut-il le faire si ils regardent tous dans des directions différentes

01:01.110 --> 01:06.300
image ils sont comme leurs visages sont positionnés dans différentes parties de l'image quelqu'un est sur

01:06.300 --> 01:10.080
le côté droit quelqu'un dans le coin gauche ou quelqu'un au

01:10.080 --> 01:10.700
milieu.

01:11.010 --> 01:14.280
Ils sont tous un peu différents et la texture est un peu différente.

01:14.280 --> 01:16.200
L'éclairage est un peu différent.

01:16.200 --> 01:21.600
Il y a beaucoup de petites différences et si le réseau de neurones recherche exactement une

01:21.810 --> 01:29.700
certaine caractéristique, par exemple, une caractéristique distinctive du guépard est constituée par les larmes qui coulent sur son visage ou par l'ombre pure de The

01:29.700 --> 01:35.310
Shadow qui ressemble à des larmes. le motif qui passe de ses yeux vers le bas est sur

01:35.310 --> 01:40.890
les côtés de son nez et ressemble à des larmes qui est une caractéristique distinctive du guépard.

01:40.890 --> 01:48.660
Mais si vous recherchez cette fonctionnalité qui a été apprise par certains guépards dans un emplacement exact ou une forme

01:48.660 --> 01:53.370
ou une texture exacte, il ne trouvera jamais ces autres tireurs.

01:53.460 --> 02:01.410
Nous devons donc nous assurer que notre réseau de neurones a une propriété appelée invariance spatiale, ce qui signifie qu’il ne se soucie

02:01.440 --> 02:10.170
pas de savoir où se trouvent les caractéristiques, pas moins que de vouloir démanger quelle partie de l’image parce que nous en avons pris le genre

02:10.520 --> 02:16.460
En tenant compte de notre carte, nous sommes médiocres avec notre convolution, mais il n’a pas

02:16.800 --> 02:23.400
à se soucier de savoir si les caractéristiques sont un peu inclinées si les caractéristiques sont un peu différentes

02:23.400 --> 02:30.210
en texture si les caractéristiques sont un peu plus proches ou plus éloignées. par rapport à par rapport à l'autre.

02:30.210 --> 02:37.230
Donc, si la fonctionnalité elle-même est un peu déformée, notre réseau de neurones doit avoir un certain niveau de

02:37.410 --> 02:39.930
flexibilité pour pouvoir toujours la trouver.

02:40.050 --> 02:42.690
Et c'est ce que la mise en commun est tout au sujet.

02:42.690 --> 02:45.140
Voyons donc comment fonctionne la mise en commun.

02:45.180 --> 02:51.090
Voici notre carte des fonctionnalités, nous avons donc déjà terminé notre convolution et avons terminé cette partie. Nous y

02:51.090 --> 02:52.680
travaillons maintenant avec la convolution.

02:52.680 --> 02:53.880
Nous allons maintenant appliquer la mise en commun.

02:53.880 --> 02:54.690
Alors, comment ça marche.

02:54.690 --> 02:56.420
Nous allons appliquer la mise en commun.

02:56.670 --> 03:01.640
Il y a plusieurs types de jeu différents, ce qui signifie la mise en commun de Max mise en commun et

03:01.710 --> 03:03.440
commentera ceux vers la fin de l'histoire.

03:03.540 --> 03:11.040
Mais pour l’instant, nous appliquons simplement le pooling maximum, nous prenons donc une boîte de deux pixels sur deux comme celle-ci et, encore une

03:11.040 --> 03:15.020
fois, il n’est pas nécessaire que ce soit une taille de deux

03:15.030 --> 03:21.900
par deux. Tauriel et vous le placez dans le coin supérieur gauche et vous trouvez la valeur maximale dans cette case, puis

03:21.900 --> 03:26.310
vous n'enregistrez que cette valeur et vous ne tenez pas compte des trois autres.

03:26.310 --> 03:30.600
Donc, dans votre boîte, vous avez quatre valeurs dont vous ne tenez pas compte. Vous ne gardez qu'une seule valeur maximale,

03:30.600 --> 03:31.830
qui est une dans ce cas.

03:31.830 --> 03:36.210
Ensuite, vous déplacez votre case à droite par foulée et sélectionnez à nouveau la foulée.

03:36.210 --> 03:41.850
Nous glissons donc ici à pas de deux et c’est ce que vous pouvez normalement dire, vous pouvez le dire comme un pas

03:41.850 --> 03:42.880
que vous pouvez sélectionner.

03:42.990 --> 03:47.940
Donc, il y a des cases qui se chevauchent et vous pouvez choisir n'importe quel type de frappe que vous aimez même

03:48.770 --> 03:52.440
trois, mais nous sélectionnons une foulée de deux ici et c'est ce qui est couramment utilisé.

03:52.470 --> 03:57.660
Et ensuite, vous répétez la procédure suivante, vous enregistrez cette maxime si vous passez outre et que vous importez peu,

03:57.660 --> 04:00.080
vous continuez simplement à faire ce que vous faites.

04:00.090 --> 04:05.690
Donc, vous enregistrez toujours le maximum ici 0 ici le maximum est quatre.

04:05.700 --> 04:11.380
Voici les maximums pour que le maximum soit 1 0 1 ou 2 puis 1.

04:11.400 --> 04:13.970
Donc, comme vous pouvez le voir, quelques événements se sont produits.

04:13.980 --> 04:18.890
Tout d'abord, nous avons encore réussi à préserver les fonctionnalités.

04:19.080 --> 04:23.730
Les nombres maximums qu’ils représentent parce que nous savons comment fonctionne la conclusion Lehre.

04:23.730 --> 04:28.650
Nous savons que les nombres maximaux ou importants de votre carte de caractéristiques représentent l'endroit où vous

04:28.650 --> 04:31.480
avez trouvé la similarité la plus proche d'une caractéristique.

04:31.650 --> 04:38.250
Mais en regroupant ces fonctionnalités, nous éliminons tout d’abord 75% des informations qui ne sont

04:38.250 --> 04:46.110
pas des fonctionnalités importantes, mais qui ne sont pas des éléments importants que nous recherchons, car nous n’avons en

04:46.220 --> 04:49.410
réalité que trois pixels sur quatre. .

04:49.710 --> 04:51.510
Nous n'obtenons donc que 25%.

04:51.510 --> 05:00.260
Et puis aussi parce que nous prenons le maximum de pixels que nous ou les valeurs que nous

05:00.770 --> 05:04.160
avons, nous comptabilisons donc toute distorsion.

05:04.160 --> 05:12.810
Ainsi, par exemple, deux images dans lesquelles, par exemple, les larmes du tricheur sur les yeux se trouvent dans l’image un peu à gauche ou légèrement

05:12.830 --> 05:16.550
tournée vers la gauche et une autre un peu plus bas.

05:16.580 --> 05:22.100
Et sont comment ils sont censés être ou comment nous aimons si vous prenez l'un comme bases et un autre il y

05:22.100 --> 05:23.800
a des bits tournent à gauche.

05:24.060 --> 05:26.570
La fonction puled sera exactement la même.

05:26.570 --> 05:32.900
Vous pouvez donc voir ici que si nous parlons des larmes du tricheur, alors disons qu'il s'agit du quatre et que c'est

05:32.900 --> 05:36.050
là qu'il se trouvait ici, s'il y avait une rotation.

05:36.050 --> 05:38.270
Ainsi, par exemple, les quatre se sont retrouvés ici.

05:38.390 --> 05:44.180
Ensuite, lors de la mise en commun, nous obtiendrons toujours la même carte de fonctionnalités de pool, et c'est en

05:44.180 --> 05:46.270
quelque sorte le principe qui la sous-tend.

05:46.430 --> 05:52.340
C'est une explication très grossière, encore une fois, une explication intuitive, mais c'est le point essentiel

05:52.340 --> 06:00.290
de la mise en commun que nous sommes toujours en mesure de préserver les fonctionnalités et de prendre en compte leur possible

06:00.290 --> 06:02.330
distorsion spatiale, texturale ou autre.

06:02.420 --> 06:07.370
Et en plus de tout cela, nous réduisons la taille donc il y a un autre avantage.

06:07.370 --> 06:13.520
Nous avons donc préservé les caractéristiques que nous introduisons en invariants spatiaux, nous avons réduit

06:13.520 --> 06:19.700
la taille de 75%, ce qui est énorme, ce qui nous aidera vraiment en termes de traitement.

06:19.870 --> 06:25.970
De plus, la mise en commun a un autre avantage: nous réduisons le nombre de paramètres. Nous réduisons

06:26.690 --> 06:31.370
donc à nouveau de 75% ou le nombre de paramètres qui seront intégrés à

06:31.370 --> 06:35.270
notre réseau final de neurones, ce qui évite les surajustements.

06:35.300 --> 06:42.580
La mise en commun est un avantage très important de supprimer des informations et c'est une bonne chose.

06:42.590 --> 06:50.660
C’est une bonne chose, car ainsi notre modèle ne pourra pas trop s’adapter à cette information, car

06:50.690 --> 06:54.500
surtout parce que cette information n’est pas bonne

06:54.950 --> 07:00.650
et que exactement les caractéristiques plutôt que tout ce bruit qui vient

07:00.650 --> 07:02.520
dans nos yeux.

07:02.780 --> 07:09.070
Même chose pour les réseaux de neurones, ils ignorent la formation inutile non importante

07:09.080 --> 07:12.470
que nous aidons à prévenir les sur-ajustements.

07:12.500 --> 07:14.590
Nous y voilà donc en quoi consiste la mise en commun.

07:14.600 --> 07:21.500
Et la question qui se pose ici est bien sûr de savoir pourquoi la mise en commun WiMax offre de nombreux types de mise

07:21.710 --> 07:26.780
en commun et une foulée large et large d’une taille trop large de deux par deux pixels.

07:26.780 --> 07:33.980
Et sur cette note, je voudrais vous présenter ce beau document de recherche intitulé Evaluation des opérations de mise

07:33.980 --> 07:40.250
en commun dans les architectures convolutionnelles pour la reconnaissance d’objets par Dominic Scherrer de l’Université

07:40.250 --> 07:41.100
de Bonn.

07:41.180 --> 07:47.540
Il existe un lien et la beauté de ce document est qu’il est très simple, très simple. Si vous n’avez

07:47.550 --> 07:51.530
jamais lu un document de recherche avant ce que vous souhaitez essayer.

07:51.530 --> 07:54.440
C'est un excellent endroit pour commencer c'est très court.

07:54.440 --> 07:55.400
Seulement 10 pages.

07:55.400 --> 07:56.810
Très facile à lire.

07:57.080 --> 08:03.170
De plus, l'avantage supplémentaire étant que, maintenant que nous avons parlé de convolution et de mise en commun, vous serez

08:03.170 --> 08:07.040
totalement à l'aise avec tout ce dont ils parlent dans ce document.

08:07.100 --> 08:11.880
C’est un excellent moyen de renforcer et je recommande également vivement de consulter ce document.

08:11.930 --> 08:18.050
Je vais prendre 20 minutes pour le lire et vous pouvez même sauter la partie 2, intitulée Travail connexe, si elle vous

08:18.050 --> 08:19.880
semble un peu prétentieuse ou aliénante.

08:19.880 --> 08:21.230
Il suffit de ne pas lire cette partie.

08:21.290 --> 08:23.950
Allez directement de la partie 1 à la partie 3.

08:24.020 --> 08:29.600
Et une chose que vous devez savoir à propos de ce document est qu'ils parlent d'un concept appelé sous-échantillonnage qui

08:30.360 --> 08:33.230
est un sous-échantillonnage est essentiellement la mise en commun moyenne.

08:33.230 --> 08:36.260
Alors rappelez-vous comment nous prenions ici.

08:36.280 --> 08:37.400
Nous prenons le maximum.

08:37.400 --> 08:43.250
Ainsi, dans notre position carrée prenant la valeur maximale, il existe un concept appelé pooling moyen ou tirant quelques-uns tirant

08:43.250 --> 08:48.590
car vous montez juste certaines de ces valeurs en pooling moyen ou pooling moyen, vous prenez la valeur moyenne

08:48.650 --> 08:53.890
de tout cela et le sous-échantillonnage est un peu comme une généralisation des hommes qui se regroupent.

08:53.900 --> 09:00.840
C'est une approche plus généralisée de la moyenne de ces valeurs.

09:00.860 --> 09:05.480
Et vous pouvez en lire un peu plus sur le journal, mais sinon, considérez-le comme une mise en commun moyenne lorsque

09:05.480 --> 09:06.620
vous lisez un journal.

09:06.920 --> 09:11.180
Et c’est là que vous pouvez obtenir des informations supplémentaires sur ce sujet et récapitulons maintenant où

09:11.210 --> 09:12.310
nous en sommes arrivés.

09:12.320 --> 09:14.440
Donc, il y a notre image d'entrée.

09:14.870 --> 09:18.960
Ensuite, nous avons appliqué l'opération de convolution et nous avons obtenu la conclusion.

09:19.070 --> 09:24.230
Et maintenant, à chacune de ces cartes de caractéristiques que nous obtenons, nous avons appliqué le Pullinger.

09:24.260 --> 09:30.590
Nous avons donc fait ces deux étapes d’évolution et de mise en commun et maintenant nous allons faire quelque chose de

09:30.590 --> 09:32.160
très amusant et d’excitant.

09:32.220 --> 09:40.340
Nous allons expérimenter cela, donc voici une capture d’écran que j’ai réalisée à partir d’un outil créé par Adam Harley à

09:40.340 --> 09:48.140
l’université des sciences informatiques de Ryerson et qui se trouve maintenant à Carnegie Mellon, je crois, en train de

09:48.320 --> 09:49.750
faire sa page.

09:50.060 --> 09:53.150
Et un excellent outil alors ouvrons-nous, jetons un coup d'oeil.

09:53.270 --> 09:55.780
Vous pouvez donc le trouver grâce à Google.

09:55.780 --> 09:57.500
Vous devez connaître votre rôle.

09:57.500 --> 10:03.790
C'est difficile à trouver avec Google, car il n'y a pas de texte, car nous ne l'étions que cette année.

10:03.930 --> 10:08.350
Je vais voir commencer le dossier Reierson et ce genre de choses.

10:08.510 --> 10:14.820
Et fondamentalement, c’est exactement ce que nous faisons mais nous visualisons: ici, vous devez donc dessiner

10:14.820 --> 10:21.330
un nombre, alors dites-le je dessine le nombre quatre et cet outil placera le nombre quatre ici.

10:21.340 --> 10:22.960
C'est ton image.

10:22.960 --> 10:26.620
Dans notre première étape, il s'agit de l'étape de convolution.

10:26.800 --> 10:27.100
Droite.

10:27.100 --> 10:30.390
Et c’est l’étape de la mise en commun, et cette mise en commun est également appelée réduction d’échantillonnage.

10:30.390 --> 10:33.770
Tirer et sous-échantillonner sont donc les mêmes choses.

10:33.930 --> 10:39.190
Ainsi, vous pouvez voir que la convolution est appliquée, puis la mise en pool appliquée, et vous pouvez voir comment cela fonctionne exactement.

10:39.190 --> 10:44.290
Vous pouvez voir quel type de convolutions il a appliqué ou quels types de filtres il est appliqué à quoi

10:44.290 --> 10:45.020
ils ressemblent.

10:45.130 --> 10:47.630
Quelles sont les fonctionnalités à la recherche.

10:47.830 --> 10:53.340
Ensuite, le pooling est appliqué afin de réduire la taille et vous pouvez voir ici que c'est important.

10:53.380 --> 11:01.090
Ainsi, vous pouvez voir qu’il s’agit de l’image convolue et de l’image puled et que vous pouvez toujours voir que les mêmes

11:01.090 --> 11:05.830
caractéristiques sont juste moins d’informations, mais que les mêmes caractéristiques sont conservées.

11:05.830 --> 11:08.110
C'est la partie importante.

11:08.350 --> 11:14.170
Et de plus, si vous saviez que si les quatre joueurs étaient un peu trop gentils, ils seraient tout

11:14.170 --> 11:16.960
de même capables d’obtenir une piscine très similaire, Lares.

11:17.050 --> 11:19.810
Et après cela, nous avons reçu plus de lettres dont nous n’avons pas encore parlé.

11:19.810 --> 11:26.840
Alors, il a ici un autre repaire convolutionnel que nous n’aurons pas réellement.

11:27.130 --> 11:30.730
Et puis il a un autre repaire pauvre mais il est fondamentalement en train de répéter le même processus.

11:31.000 --> 11:34.880
Et ensuite, c'est ce dont nous allons parler plus loin dans le cours.

11:34.910 --> 11:37.610
Il a les Lares entièrement connectés et ainsi de suite.

11:38.080 --> 11:39.880
Mais vous pouvez certainement jouer avec ça.

11:39.880 --> 11:47.890
Donc, si je supprime ce que vous aimez si je dessine un 7, vous verrez que cela vous indique en fait que vous devez deviner

11:47.890 --> 11:49.410
que c’est un 7.

11:49.570 --> 11:52.850
Et la deuxième hypothèse, la deuxième probabilité est trois.

11:53.050 --> 11:56.440
Ainsi, vous pouvez dessiner des choses difficiles et voir si cela peut les récupérer.

11:56.440 --> 12:02.680
Donc, disons que si je dessine quelque chose qui ressemble à un 0 mais que ce n'est pas un 0 fini, est-ce qu'il le reprendra cette fois-ci

12:02.770 --> 12:03.730
ne le prendra pas.

12:03.730 --> 12:06.190
On dirait un 9 à cela à l'image.

12:06.190 --> 12:08.550
Et si j'aimais bien finir comme ça.

12:08.560 --> 12:14.430
Alors maintenant, il pense que c'est un 0 ou un 9 et vous pouvez voir là-bas ce qui éclaire le 0.

12:14.460 --> 12:16.600
Mais nous allons parler de cette partie pour le doute.

12:16.720 --> 12:20.030
Faites-en une de plus, disons comme 8.

12:20.260 --> 12:23.780
Je pense que c'est assez difficile pour cela maintenant pris un 8.

12:23.800 --> 12:29.590
Vous pouvez donc voir que cela va dans un 8 et ensuite comme après que ça cesse d'être reconnaissable, les arrêts

12:29.590 --> 12:31.570
ont un sens pour nous, humains.

12:31.570 --> 12:32.150
Droite.

12:32.170 --> 12:34.390
Ces fonctionnalités avec lesquelles cela fonctionne.

12:34.570 --> 12:38.710
Mais en même temps, il reconnaît correctement que c’est un 8.

12:39.100 --> 12:42.540
Alors, jouez avec ça, vous pouvez dessiner un visage souriant.

12:42.550 --> 12:43.460
Qu'est-ce qui se passe ensuite.

12:44.310 --> 12:50.070
Cela ressemble à un trois pour cet outil car l'outil est évidemment formé uniquement sur les chiffres de 0

12:50.070 --> 12:50.950
à neuf.

12:51.120 --> 12:58.530
Donc, il faut reconnaître quelque chose et reconnaître un trois c'est comme dans la vie quand vous voyez quelque chose comme un type de fruit

12:58.530 --> 13:05.700
que vous n'avez jamais vu auparavant comme une pomme à la crème ou quelque chose et que vous pensez que c'est comme si c'était

13:06.120 --> 13:12.570
comme si c'était un pear parce que vous n'en avez jamais vu auparavant, vous ne savez pas quoi classer ici comme

13:12.570 --> 13:18.210
étant identique, de sorte qu'il ne s'est pas vraiment entraîné sur les smileys et c'est pourquoi il pense

13:18.210 --> 13:20.480
que c'est un arbre comme un arbre.

13:20.490 --> 13:25.770
Donc voilà, c'est un outil très puissant et puissant, il vous sera utile de le jouer lorsque

13:26.130 --> 13:29.430
vous placez votre souris sur un pixel pixel qui apparaîtra.

13:29.430 --> 13:36.930
Il vous montre où le détecteur de caractéristiques devait capturer ce pixel pour que vous puissiez voir d'où venaient ces pixels

13:36.930 --> 13:43.170
et aussi pour voir comment le filtre ressemblait à parcourir l'image exactement comme nous en avions parlé et

13:43.170 --> 13:47.910
bien sûr et ici. vous pouvez voir que vous pouvez voir la

13:47.910 --> 13:58.140
mise en commun, vous pouvez voir que le tirage est fait avec le tirage se fait avec un petit carré de deux par deux et vous pouvez voir que

13:58.200 --> 14:03.730
c'est une foulée de deux aussi bien que nous avons discuté dans le tutoriel d'aujourd'hui.

14:03.960 --> 14:09.240
Alors allez jouer ou amusez-vous avec ça et j'espère que vous avez apprécié la session d'aujourd'hui.

14:09.240 --> 14:10.610
J'ai hâte de vous voir la prochaine fois.

14:10.620 --> 14:12.470
Et jusque-là, profitez d'un apprentissage en profondeur.
