WEBVTT

00:00.630 --> 00:04.800
Cześć i witamy z powrotem na kursie na temat głębokiego uczenia się dzisiaj mówimy o

00:04.800 --> 00:07.380
łączeniu Maxa i mamy przed sobą bardzo ekscytujące slajdy.

00:07.500 --> 00:10.930
I nawet specjalna niespodzianka na samym końcu samouczka.

00:11.010 --> 00:12.440
Więc zacznijmy.

00:12.450 --> 00:15.860
Pierwsze pytanie dotyczy tego, co się łączy i dlaczego tego potrzebujemy.

00:16.050 --> 00:19.650
Cóż, aby odpowiedzieć na to pytanie, rzućmy okiem na te obrazy na tych zdjęciach.

00:19.650 --> 00:20.780
Mamy geparda.

00:20.790 --> 00:23.680
W rzeczywistości jest to dokładnie ten sam gepard na pierwszym obrazie.

00:23.680 --> 00:29.640
Ten obraz jest ustawiony prawidłowo i patrzy prosto na ciebie na drugim obrazie.

00:29.640 --> 00:30.660
Jest trochę obrócony.

00:30.660 --> 00:32.710
I trzeci obraz nieco zmiażdżył.

00:32.790 --> 00:40.020
Chodzi o to, że chcemy, aby sieć neuronowa była w stanie rozpoznać geparda w każdym z

00:40.020 --> 00:41.450
tych obrazów.

00:41.460 --> 00:43.230
W rzeczywistości to tylko jeden gepard.

00:43.230 --> 00:45.070
Co jeśli mamy dużo różnych strzelanek.

00:45.090 --> 00:46.120
Oto gepard.

00:46.180 --> 00:47.250
On jest gepardem.

00:47.400 --> 00:53.130
Oto kolejny gepard, jego Ashira, jego gepard z Ishida, a on gepard i chcemy, aby sieć

00:53.130 --> 01:01.110
neuronowa rozpoznała wszystkich tych strzelców jako oszustów i jak to zrobić, jeśli wszyscy patrzą w różnych kierunkach, wszyscy znajdują się w różnych

01:01.110 --> 01:06.300
częściach obraz jest taki, że ich twarze są umieszczone w różnych częściach obrazu, ktoś jest

01:06.300 --> 01:10.080
po prawej stronie, ktoś w lewym rogu lub ktoś w

01:10.080 --> 01:10.700
środku.

01:11.010 --> 01:14.280
Wszystkie są trochę inne i tekstura jest trochę inna.

01:14.280 --> 01:16.200
Oświetlenie jest nieco inne.

01:16.200 --> 01:21.600
Jest wiele drobnych różnic, a więc jeśli sieć neuronowa szuka dokładnie

01:21.810 --> 01:29.700
pewnej cechy, na przykład charakterystyczną cechą geparda są łzy, które są na jego twarzy, wychodzące z oczu lub same

01:29.700 --> 01:35.310
cienie Shadow, które wyglądają jak łzy, tekstury wzór, który spływa z jego oczu,

01:35.310 --> 01:40.890
jest po bokach nosa i wygląda jak łzy, które są charakterystyczną cechą Geparda.

01:40.890 --> 01:48.660
Ale jeśli szuka tej cechy, której nauczył się od niektórych gepardów w dokładnym miejscu lub dokładnym kształcie,

01:48.660 --> 01:53.370
formie lub fakturze, nigdy nie znajdzie tych innych strzelców.

01:53.460 --> 02:01.410
Musimy więc upewnić się, że nasza sieć neuronowa ma właściwość nazywaną przestrzenną niezmiennością, co oznacza, że nie dba

02:01.440 --> 02:10.170
ona o to, gdzie znowu znajdują się cechy, nie tak bardzo, jak swędzenie, która część obrazu, ponieważ jesteśmy tego

02:10.520 --> 02:16.460
rodzaju z naszą mapą jesteśmy słabi z naszym splotem, ale nie musimy

02:16.800 --> 02:23.400
się przejmować, czy funkcje są nieco nachylone, jeśli cechy są nieco inne w fakturze,

02:23.400 --> 02:30.210
jeśli cechy są nieco bliższe cechom lub nieco dalej od siebie względem siebie względem siebie.

02:30.210 --> 02:37.230
Jeśli więc ta sama cecha jest nieco zniekształcona, nasza sieć neuronowa musi mieć pewien poziom elastyczności, aby

02:37.410 --> 02:39.930
móc nadal znaleźć tę funkcję.

02:40.050 --> 02:42.690
I o to właśnie chodzi w kumulacji.

02:42.690 --> 02:45.140
Zobaczmy więc, jak działa łączenie.

02:45.180 --> 02:51.090
Oto nasza mapa funkcji, więc zrobiliśmy już splot i ukończyliśmy tę część, a teraz pracujemy

02:51.090 --> 02:52.680
tam z splotem.

02:52.680 --> 02:53.880
Teraz zastosujemy łączenie.

02:53.880 --> 02:54.690
Jak to działa.

02:54.690 --> 02:56.420
Zamierzamy zastosować back-pooling.

02:56.670 --> 03:01.640
Istnieje kilka różnych rodzajów rozgrywek, które są równoznaczne ze średnią pulą Maxa, łączącą pulę i

03:01.710 --> 03:03.440
komentującą te z końca historii.

03:03.540 --> 03:11.040
Ale na razie stosujemy tylko kombinację Max, więc wybieramy pudełko o dwóch takich pikselach i znowu nie musi to być dwa

03:11.040 --> 03:15.020
do dwóch, można wybrać dowolny rozmiar pudełka i znowu

03:15.030 --> 03:21.900
będzie komentować to w kierunku i jest Tauriel i umieśćcie go w lewym górnym rogu, a znajdziecie w nim

03:21.900 --> 03:26.310
maksymalną wartość, a następnie zarejestrujecie tylko tę wartość i zignorujecie pozostałe trzy.

03:26.310 --> 03:30.600
Tak więc w twoim pudełku masz cztery wartości, z którymi po prostu nie bierzesz pod uwagę trzech, ale trzymasz tylko jedną wartość maksymalną,

03:30.600 --> 03:31.830
która jest w tym przypadku jedna.

03:31.830 --> 03:36.210
Następnie przesuwasz skrzynkę w prawo krok po kroku, wybierając ponownie krok.

03:36.210 --> 03:41.850
Tak więc przesuwamy się do kroku dwóch i to jest to, co zwykle masz na myśli, możesz powiedzieć jak krok,

03:41.850 --> 03:42.880
który możesz wybrać.

03:42.990 --> 03:47.940
Są więc nakładające się pola, w których możesz wybrać dowolne uderzenie, które chcesz nawet trzy, jeśli chcesz, ale

03:48.770 --> 03:52.440
wybieramy tutaj krok dwóch i to jest to, co jest powszechnie używane.

03:52.470 --> 03:57.660
A potem powtarzacie powtarzanie procesu, w którym rejestrujecie tę maksymę, jeśli przejdziecie na drugą stronę i nie ma

03:57.660 --> 04:00.080
znaczenia, po prostu kontynuujcie robienie tego, co robicie.

04:00.090 --> 04:05.690
Więc nadal nagrywasz tutaj maksimum 0 tutaj maksimum wynosi cztery.

04:05.700 --> 04:11.380
Oto maksymalne tutaj maksimum to 1 0 1 lub 2, a następnie 1.

04:11.400 --> 04:13.970
Tak więc, jak widać, wydarzyło się kilka rzeczy.

04:13.980 --> 04:18.890
Przede wszystkim nadal byliśmy w stanie zachować odpowiednie funkcje.

04:19.080 --> 04:23.730
Maksymalne liczby, które reprezentują, ponieważ wiemy, jak działa wniosek Lehre.

04:23.730 --> 04:28.650
Wiemy, że maksymalne lub duże liczby na mapie cech reprezentują to, gdzie

04:28.650 --> 04:31.480
faktycznie znajdujesz najbliższe podobieństwo do funkcji.

04:31.650 --> 04:38.250
Ale łącząc te funkcje, najpierw pozbawiamy 75% informacji, które nie są

04:38.250 --> 04:46.110
cechą, która nie jest istotną rzeczą, na którą patrzymy, ponieważ jesteśmy naprawdę tylko

04:46.220 --> 04:49.410
trzema pikselami na cztery. .

04:49.710 --> 04:51.510
Więc dostajemy tylko 25 procent.

04:51.510 --> 05:00.260
A także dlatego, że przyjmujemy maksimum pikseli, które my lub wartości, które mamy,

05:00.770 --> 05:04.160
dlatego uwzględniamy wszelkie zniekształcenia.

05:04.160 --> 05:12.810
Na przykład dwa obrazy, w których na przykład łzy oszusta na oczach znajdują się na jednym obrazie nieco na lewo

05:12.830 --> 05:16.550
lub nieco obrócone w lewo, a drugie nieco.

05:16.580 --> 05:22.100
I jak mają być lub jak nam się podoba, jeśli bierze się jedną z nich, a drugą są

05:22.100 --> 05:23.800
bity obracające się w lewo.

05:24.060 --> 05:26.570
Funkcja pulsowania będzie dokładnie taka sama.

05:26.570 --> 05:32.900
Więc możesz zobaczyć tutaj, jeśli mówimy o łzach oszustów, to powiedzmy, że to jest czwórka i tutaj jest to,

05:32.900 --> 05:36.050
gdzie to było wtedy, gdyby zostało nieco zmienione.

05:36.050 --> 05:38.270
Na przykład czwórka skończyła tutaj.

05:38.390 --> 05:44.180
Potem, gdy robimy pulę, nadal będziemy mieć tę samą mapę funkcji puli i taką właśnie

05:44.180 --> 05:46.270
zasadę kryje się za nią.

05:46.430 --> 05:52.340
Jest to bardzo szorstkie wyjaśnienie, które jest intuicyjne, ale to jest punkt

05:52.340 --> 06:00.290
łączenia, że wciąż jesteśmy w stanie zachować cechy, a ponadto wyjaśnić ich możliwe zniekształcenia przestrzenne,

06:00.290 --> 06:02.330
teksturalne lub inne.

06:02.420 --> 06:07.370
Poza tym zmniejszamy rozmiar, więc mamy kolejną korzyść.

06:07.370 --> 06:13.520
Więc zachowujemy cechy, które wprowadzamy, niezmienniki przestrzenne, zmniejszamy rozmiar o

06:13.520 --> 06:19.700
75 procent, co jest ogromne, co naprawdę pomoże nam w przetwarzaniu.

06:19.870 --> 06:25.970
Co więcej, zmniejszamy liczbę parametrów, więc redukujemy ponownie o 75 procent lub

06:26.690 --> 06:31.370
zmniejszamy liczbę parametrów, które będą trafiać do naszych końcowych

06:31.370 --> 06:35.270
nagród sieci neuronowej i dlatego zapobiegamy przeuczeniu.

06:35.300 --> 06:42.580
Bardzo ważną korzyścią płynącą z łączenia jest to, że usuwamy informacje i to dobrze.

06:42.590 --> 06:50.660
To dobrze, ponieważ w ten sposób nasz model nie będzie w stanie dopasować się do tej informacji, ponieważ szczególnie dlatego, że ta informacja nie

06:50.690 --> 06:54.500
jest dobra i pamiętaj, że na samym początku mówimy o ludziach,

06:54.950 --> 07:00.650
tak jak ludzi, ważne jest, aby zobaczyć dokładnie cechy, a nie cały ten inny hałas, który pojawia

07:00.650 --> 07:02.520
się w naszych oczach.

07:02.780 --> 07:09.070
To samo dotyczy sieci neuronowych, ignorując niepotrzebną, nieważną formację,

07:09.080 --> 07:12.470
której pomagamy zapobiegając przeuczeniu.

07:12.500 --> 07:14.590
Tak więc idziemy o to, o co chodzi.

07:14.600 --> 07:21.500
I tutaj pytanie brzmi oczywiście, dlaczego połączenie WiMax ma wiele różnych rodzajów łączenia i szeroki zakres

07:21.710 --> 07:26.780
zbyt dużej wielkości dwóch na dwa piksele partii wszystkich tych rzeczy.

07:26.780 --> 07:33.980
I w tej notatce chciałbym przedstawić wam ten uroczy dokument badawczy, zwany ewaluacją operacji łączenia

07:33.980 --> 07:40.250
w architekturach splotowych do rozpoznawania obiektów przez Dominica Scherrera z Uniwersytetu w

07:40.250 --> 07:41.100
Bonn.

07:41.180 --> 07:47.540
Jest link i piękna w tym artykule jest to, że jest bardzo proste bardzo proste Więc jeśli nigdy nie

07:47.550 --> 07:51.530
czytałeś artykułu z badań przed tym, co chcesz dać mu szansę.

07:51.530 --> 07:54.440
To świetne miejsce na rozpoczęcie, bardzo krótkie.

07:54.440 --> 07:55.400
Tylko 10 stron.

07:55.400 --> 07:56.810
Bardzo łatwe do odczytania.

07:57.080 --> 08:03.170
Dodatkową korzyścią jest to, że teraz, kiedy omawialiśmy splatanie i łączenie się, będziesz całkowicie zadowolony

08:03.170 --> 08:07.040
ze wszystkiego, o czym mówią w tym tekście.

08:07.100 --> 08:11.880
Jest to świetny sposób na faktyczne wzmocnienie i bardzo polecam sprawdzenie tego papieru.

08:11.930 --> 08:18.050
Zajmę 20 minut, aby ją przeczytać, a nawet można pominąć część 2, która jest nazywana związaną pracą, jeśli wydaje

08:18.050 --> 08:19.880
się nieco naciągana lub wyobcowana.

08:19.880 --> 08:21.230
Tylko nie czytaj tej części.

08:21.290 --> 08:23.950
Idź prosto z części 1 do części 3.

08:24.020 --> 08:29.600
I jedną rzeczą, którą musisz wiedzieć o tym artykule, który mówią o koncepcji pod nazwą podpróbkowania,

08:30.360 --> 08:33.230
którą jest podpróbkowanie, jest w zasadzie średnie sumowanie.

08:33.230 --> 08:36.260
Więc pamiętaj, jak tutaj bierzemy.

08:36.280 --> 08:37.400
Bierzemy maksimum.

08:37.400 --> 08:43.250
Tak więc w naszym kwadracie, przyjmującym maksymalną wartość, istnieje pojęcie o nazwie "Łączenie średnich"

08:43.250 --> 08:48.590
lub "ciągnięcie", ponieważ niektóre z tych wartości oznaczają średnią pulę lub średnią pulę,

08:48.650 --> 08:53.890
z której czerpie się średnią wartość, a podpróbkowanie jest generalizacją. łączenia ludzi.

08:53.900 --> 09:00.840
Jest to bardziej rodzaj uogólnionego podejścia do przyjmowania średniej z tych wartości.

09:00.860 --> 09:05.480
Możesz przeczytać nieco więcej na ten temat, ale poza tym po prostu myśl o tym jako o średniej

09:05.480 --> 09:06.620
puli podczas czytania gazety.

09:06.920 --> 09:11.180
I tu można uzyskać dodatkowe informacje na ten temat, a teraz podsumujmy,

09:11.210 --> 09:12.310
skąd się wzięliśmy.

09:12.320 --> 09:14.440
Mamy więc nasz obraz wejściowy.

09:14.870 --> 09:18.960
Następnie zastosowaliśmy operację splotu i doszliśmy do wniosku.

09:19.070 --> 09:24.230
A teraz do każdej z tych map funkcji, które otrzymujemy Zastosowaliśmy Pullinger.

09:24.260 --> 09:30.590
Więc zrobiliśmy te dwa etapy ewolucji i łączenia, a teraz zrobimy coś

09:30.590 --> 09:32.160
bardzo ekscytującego.

09:32.220 --> 09:40.340
Będziemy eksperymentować z tym, więc jest to zrzut ekranu, który zrobiłem z narzędzia stworzonego przez Adama

09:40.340 --> 09:48.140
Harleya, kiedy był na Uniwersytecie Ryersona i teraz jest w Carnegie Mellon. Myślę, że robię

09:48.320 --> 09:49.750
jego stronę.

09:50.060 --> 09:53.150
I wspaniałe narzędzie, więc otwórzmy, spójrzmy.

09:53.270 --> 09:55.780
Możesz go znaleźć, dzięki czemu możesz go znaleźć przez Google.

09:55.780 --> 09:57.500
Musisz znać swoją rolę.

09:57.500 --> 10:03.790
Trudno jest znaleźć go w Google, ponieważ nie ma tu tekstu, ponieważ byliśmy właśnie w tym roku.

10:03.930 --> 10:08.350
Zobaczę dossier Reiersona i te rzeczy.

10:08.510 --> 10:14.820
Zasadniczo jest to dokładnie to, co robimy, ale wizualizujemy Więc tutaj musisz narysować

10:14.820 --> 10:21.330
liczbę, więc powiedz, że rysuję numer cztery, a to narzędzie umieści tutaj numer cztery.

10:21.340 --> 10:22.960
To twój obraz.

10:22.960 --> 10:26.620
W naszym pierwszym kroku jest to krok splotu.

10:26.800 --> 10:27.100
Dobrze.

10:27.100 --> 10:30.390
I to jest etap łączenia, a także, przy okazji, także pulowanie jest również nazywane próbkowaniem w dół.

10:30.390 --> 10:33.770
Więc ciągnięcie i zmniejszanie częstotliwości to te same rzeczy.

10:33.930 --> 10:39.190
Możesz więc zauważyć, że zastosował splot, a następnie zastosował łączenie i możesz zobaczyć, jak dokładnie działa.

10:39.190 --> 10:44.290
Możesz zobaczyć, jakiego rodzaju nawinięcia zostały zastosowane lub jakie filtry są stosowane, jak

10:44.290 --> 10:45.020
wyglądają.

10:45.130 --> 10:47.630
Na co zwracają uwagę funkcje.

10:47.830 --> 10:53.340
A następnie stosuje się łączenie, więc zmniejsza rozmiar i widać, że jest to ważne.

10:53.380 --> 11:01.090
Widać więc, że jest to splatany obraz, a to jest pulsujący obraz i nadal można zobaczyć te same

11:01.090 --> 11:05.830
funkcje, to tylko mniej informacji, ale te same funkcje są zachowane.

11:05.830 --> 11:08.110
To jest ważna część.

11:08.350 --> 11:14.170
A ponadto, jeśli wiesz, że gdyby wszystkie cztery były nieco zbyt obrócone nieco w bok, to nadal

11:14.170 --> 11:16.960
byłyby w stanie podnieść bardzo podobne Lares.

11:17.050 --> 11:19.810
A potem jest więcej listów, o których jeszcze nie rozmawialiśmy.

11:19.810 --> 11:26.840
A więc ma on jeszcze inną splotową splotowatą kryjówkę, której tak naprawdę nie będziemy mieć.

11:27.130 --> 11:30.730
A potem ma kolejną biedną kryjówkę, ale w zasadzie po prostu powtarza ten sam proces.

11:31.000 --> 11:34.880
A potem to właśnie będziemy mówić dalej w trakcie.

11:34.910 --> 11:37.610
Ma w pełni połączone Lares i tak dalej.

11:38.080 --> 11:39.880
Ale na pewno można się z tym bawić.

11:39.880 --> 11:47.890
Więc jeśli skasuję to, co lubisz, jeśli narysuję 7, zobaczysz, że faktycznie mówi ci, że domyślam się, że

11:47.890 --> 11:49.410
to jest 7.

11:49.570 --> 11:52.850
I drugie przypuszczenie, że drugie prawdopodobieństwo to trzy.

11:53.050 --> 11:56.440
Możesz więc narysować kilka trudnych rzeczy i sprawdzić, czy może je odebrać.

11:56.440 --> 12:02.680
Powiedzmy, że jeśli narysuję coś, co wygląda jak 0, ale nie jest skończone 0, to go podnieśli, tym razem go

12:02.770 --> 12:03.730
nie odebrało.

12:03.730 --> 12:06.190
Wygląda na to 9 na obraz.

12:06.190 --> 12:08.550
Co jeśli lubię tak to zakończyć.

12:08.560 --> 12:14.430
Teraz myśli, że jest to 0 lub 9 i widać tam, co oświetla 0.

12:14.460 --> 12:16.600
Ale porozmawiamy o tej części dla wątpliwości.

12:16.720 --> 12:20.030
Zrób jeszcze jeden, powiedzmy jak 8.

12:20.260 --> 12:23.780
Myślę, że to dość trudne, bo teraz wziął 8.

12:23.800 --> 12:29.590
Więc widzisz, że idzie w ósemkę, a potem po tym przestaje być rozpoznawalnym, że przystanki

12:29.590 --> 12:31.570
mają sens dla nas ludzi.

12:31.570 --> 12:32.150
Dobrze.

12:32.170 --> 12:34.390
Te funkcje, z którymi współpracuje.

12:34.570 --> 12:38.710
Ale jednocześnie poprawnie rozpoznaje, że to 8.

12:39.100 --> 12:42.540
Więc zdecydowanie baw się tym, że możesz narysować buźkę.

12:42.550 --> 12:43.460
Co się wtedy stanie.

12:44.310 --> 12:50.070
Wygląda na to, że jest to trzy narzędzie, ponieważ narzędzie jest oczywiście wyszkolone tylko na cyfrach od 0

12:50.070 --> 12:50.950
do dziewięciu.

12:51.120 --> 12:58.530
Musi więc rozpoznać coś, co istnieje, i rozpoznać trójkę w życiu, kiedy zobaczysz coś w rodzaju owocu,

12:58.530 --> 13:05.700
którego nigdy wcześniej nie widziałaś, jak jabłko z kremem lub coś takiego i myślisz, że to jest

13:06.120 --> 13:12.570
tak, jakby to było Gruszka, ponieważ nigdy wcześniej jej nie widziałaś, bo nie wiesz, co

13:12.570 --> 13:18.210
ją zaklasyfikować jako tej samej rzeczy, więc nie trenował na buźkach i dlatego

13:18.210 --> 13:20.480
myśli, że to drzewo.

13:20.490 --> 13:25.770
W takim razie jest to bardzo potężne i potężne narzędzie, które będzie pomocne w zabawie, kiedy

13:26.130 --> 13:29.430
położysz kursor myszy nad pikselem pikselowym, który się pokaże.

13:29.430 --> 13:36.930
Pokazuje, gdzie detektor funkcji miał odebrać ten piksel, abyś mógł zobaczyć, skąd pochodzą te piksele,

13:36.930 --> 13:43.170
a także, aby zobaczyć, jak filtr był jak oglądanie obrazu dokładnie o tym,

13:43.170 --> 13:47.910
o czym rozmawialiśmy i oczywiście i tutaj możesz zobaczyć,

13:47.910 --> 13:58.140
że możesz zobaczyć, że ciągnięcie odbywa się za pomocą pociągnięcia za pomocą małego kwadratu o wartości dwóch na dwóch i widać,

13:58.200 --> 14:03.730
że jest to krok dwóch, tak jak omówiliśmy w dzisiejszym tutorialu.

14:03.960 --> 14:09.240
Więc idź lub zagraj z tym i mam nadzieję, że podobała ci się dzisiejsza sesja.

14:09.240 --> 14:10.610
Czekam na ciebie następnym razem.

14:10.620 --> 14:12.470
A do tego czasu cieszcie się głęboką nauką.