WEBVTT

00:00.360 --> 00:06.480
Witam i zapraszam do kursu na temat głębokiego uczenia się. Jest to dodatkowy samouczek mówiący o

00:06.480 --> 00:08.670
funkcjach miękkiej i krzyżowej entropii.

00:08.670 --> 00:15.320
Nie jest to w 100% konieczne, abyś przeszedł przez wszystkie części, przez które przeszliśmy w

00:15.330 --> 00:21.510
głównej części tej sekcji, gdzie mówimy o splotowych sieciach neuronowych, ale jednocześnie myślałem, że

00:21.510 --> 00:26.580
to będzie dobry dodatek do torby wiedzy i zestawu umiejętności.

00:26.580 --> 00:30.840
Więc chodźmy dalej i zagłębić się w te funkcje.

00:30.840 --> 00:37.530
Zacznijmy od tego, co mamy tutaj, to wniosek sieci neuronowej, którą zbudowaliśmy w głównej

00:37.530 --> 00:44.210
części sekcji, a następnie na końcu wyskakuje kilka prawdopodobieństw dla punktu zero dziewięćdziesiąt pięć

00:44.220 --> 00:48.000
dla psa 0. 05 pięć lub 5 procent dla kota.

00:48.060 --> 00:53.250
Biorąc pod uwagę, że zdjęcie po lewej stronie jako dane wejściowe To już po

00:53.260 --> 00:57.210
przeprowadzeniu pociągu, to faktycznie działa i klasyfikuje określony obraz.

00:57.360 --> 01:00.850
Tak więc tutaj pytanie brzmi, w jaki sposób te dwie wartości sumują się do jednego.

01:00.900 --> 01:06.750
Ponieważ o ile wiemy ze wszystkiego, dowiedziałem się o sztucznych sieciach neuronowych, nie ma nic

01:06.750 --> 01:11.600
do powiedzenia, że te dwa ostatnie neurony są ze sobą połączone.

01:11.730 --> 01:16.590
Skąd więc mieliby wiedzieć, jaka jest wartość posiadania, każdy z nich wie, jaka jest

01:16.590 --> 01:17.310
wartość drugiej.

01:17.400 --> 01:20.140
A skąd mają wiedzieć, aby dodać swoje wartości do jednego.

01:20.340 --> 01:22.060
Cóż, odpowiedź brzmi, że nie.

01:22.260 --> 01:28.500
W klasycznej wersji naszej sztucznej sieci neuronowej i jedynym sposobem, w jaki to robią, jest wprowadzenie

01:28.710 --> 01:33.960
specjalnej funkcji zwanej funkcją miękkiego maksimum, aby pomóc nam wyjść z sytuacji.

01:33.960 --> 01:40.890
Więc normalnie, co by się stało, neurony psa i kota miałyby jakiekolwiek prawdziwe wartości, których nie

01:41.490 --> 01:44.940
muszą być, żeby nie musiały ich dodawać.

01:45.180 --> 01:51.900
Ale wtedy zastosowalibyśmy funkcję soft max, która jest tam zapisana u góry i która przyniosłaby

01:51.900 --> 01:58.430
te wartości między 0 a 1 i spowodowałaby dodanie do 1 i 3 PPTA.

01:59.250 --> 02:04.320
Funkcja maksimum miękkiego lub znormalizowana funkcja wykładnicza jest uogólnieniem funkcji logistycznej, która

02:04.350 --> 02:11.640
cytuje squash niecałkowity ma wektor k-wymiarowy dowolnych wartości rzeczywistych do wektora k-wymiarowego rzeczywistych wartości w zakresie od

02:11.640 --> 02:15.320
zera do jednego, który sumuje do 1.

02:15.330 --> 02:17.620
Zasadniczo robi dokładnie to, czego chcemy.

02:17.670 --> 02:22.700
Przynosi wartości od 0 do 1 i upewnij się, że sumują się do 1.

02:22.960 --> 02:27.780
A sposób w jaki działa to to, że jest to możliwe, ponieważ na samym

02:27.780 --> 02:29.970
dole widzimy, że istnieje podsumowanie.

02:29.970 --> 02:38.100
Więc bierze wykładnik i umieszcza go w mocy Zeda i dodaje go do siebie, tak aby każdy miał dwie

02:38.100 --> 02:38.830
klasy.

02:38.850 --> 02:39.990
Wszystkie te wartości.

02:39.990 --> 02:44.400
I tak właśnie dzieje się twoja normalizacja.

02:44.400 --> 02:51.300
Tak działa funkcja Saucebox i ma sens wprowadzenie miękkiej następnej funkcji w

02:51.600 --> 02:59.490
splotowe sieci neuronowe, ponieważ jak dziwne by było, gdybyście mieli możliwe klasy psów i

02:59.490 --> 03:05.140
kotów, a dla klasy psów mielibyście możliwość 80% .

03:05.160 --> 03:08.660
A dla pazurów kota miałeś dobre 45 procent.

03:08.670 --> 03:14.430
To po prostu nie ma sensu i dlatego jest o wiele lepsze, gdy wprowadzasz miękką następną

03:14.430 --> 03:19.760
funkcję i właśnie to dzieje się przez większość czasu w sieciach splotowych i neuronowych.

03:19.770 --> 03:26.010
Drugą rzeczą jest to, że funkcja "miękkiej maksimum" idzie w parze z czymś, co nazywa się funkcją

03:26.100 --> 03:29.040
entropii krzyżowej i jest dla nas bardzo przydatna.

03:29.050 --> 03:30.610
Najpierw przyjrzyjmy się formule.

03:30.660 --> 03:33.090
Tak wygląda funkcja wejścia krzyżowego.

03:33.090 --> 03:38.910
W rzeczywistości będziemy używać innych obliczeń, które będą wykorzystywać tę reprezentację stulecia, ale wyniki są

03:39.060 --> 03:40.670
w zasadzie takie same.

03:40.670 --> 03:42.300
To jest łatwiejsze do obliczenia.

03:42.570 --> 03:49.220
A to, co wiem, może brzmieć zupełnie niezwiązane z niczym w tej chwili tylko formułami na ekranie, ale na

03:49.850 --> 03:54.300
końcu tej sekcji będzie kilka dodatkowych zalecanych lektur, więc nie martw się, jeśli

03:54.600 --> 03:56.380
nie podchodzisz do matematyki.

03:56.380 --> 03:58.350
Jakby nawet nie wyjaśniliśmy teraz matematyki.

03:58.350 --> 04:03.630
Ale chodzi tutaj o to, co jest dobrze przez entropię w całej funkcji entropii.

04:03.630 --> 04:11.870
Pamiętasz, jak poprzednio w sztucznych sieciach neuronowych mieliśmy funkcję zwaną średnią kwadratową funkcją strzałki, którą

04:11.880 --> 04:17.760
wykorzystaliśmy jako funkcję kosztów do oceny naszej naturalnej wydajności.

04:17.760 --> 04:23.750
Naszym celem było zminimalizowanie usługi MSE w celu zoptymalizowania wydajności naszej sieci.

04:23.940 --> 04:31.830
Cóż, to była nasza funkcja kosztowa tam i w splotowych sieciach neuronowych możemy nadal używać MSE, ale

04:31.830 --> 04:38.070
lepszym rozwiązaniem w splotowych sieciach neuronowych po zastosowaniu funkcji miękkiego maksimum okazuje się

04:38.070 --> 04:39.840
funkcja entropii krzyżowej.

04:39.840 --> 04:46.080
A w splotowych sieciach neuronowych, gdy stosuje się funkcje wejścia krzyżowego, a nie koszt zwany funkcją kosztów,

04:46.080 --> 04:49.450
jest nazywany ostatnią funkcją i są one bardzo podobne.

04:49.470 --> 04:55.520
To tylko niewielkie różnice terminologiczne i trochę inne, i to, co mają na myśli.

04:55.530 --> 04:58.430
Ale dla wszystkich celów jest to prawie to samo.

04:58.450 --> 05:07.530
A co się dzieje, ostatnia funkcja jest znowu czymś, co chcemy zminimalizować, aby zmaksymalizować

05:07.530 --> 05:09.670
wydajność naszej sieci.

05:09.690 --> 05:15.260
Zatem przyjrzyjmy się krótkiemu przykładowi, w jaki sposób można zastosować tę funkcję.

05:15.260 --> 05:19.260
Powiedzmy więc, że umieszczamy obraz psa w naszej sieci.

05:19.650 --> 05:26.160
Przewidywana wartość dla psa to 0. 9 i to robi szkolenie, więc wiemy, że znamy etykietę,

05:26.160 --> 05:27.330
która jest psem.

05:27.330 --> 05:34.140
Tak więc wartość predykcyjna 0. 9 prgged wartość dla kota wynosi 0. 1 tutaj mamy etykietę, więc znamy jej

05:34.140 --> 05:37.810
psa, ponieważ jest to trening 0 1 dla psów lub dla kota.

05:37.980 --> 05:47.600
Tak więc w tym przypadku musisz użyć tych liczb, aby wstawić te wartości do swojej formuły dla entropii krzyżowej.

05:47.810 --> 05:53.340
Więc jak to robisz, wartości po lewej idą do słownego cue.

05:53.420 --> 05:58.940
Ten, który znajduje się pod logarytmem po prawej stronie, a wartości z prawej strony, przechodzi

05:58.940 --> 06:04.340
do P, więc ważne jest, aby pamiętać, który z nich idzie, ponieważ jeśli źle

06:04.340 --> 06:09.620
je zrobisz, nie chcesz logarytmu dla wszystko od zerowej wartości i od 1.

06:09.620 --> 06:11.660
Więc po prostu chcesz je podłączyć.

06:11.720 --> 06:14.520
Upewnij się, że podłączasz je w odpowiednie miejsca.

06:14.840 --> 06:17.030
A potem zasadniczo to dodajesz.

06:17.030 --> 06:22.370
Tak właśnie działa cross-wejście i przyjrzymy się właśnie teraz, kiedy przyjrzymy się konkretnemu

06:22.370 --> 06:28.130
krok po kroku przykładowi zastosowania tej funkcji w prawdziwym życiu, i Ill, aby uczynić

06:28.130 --> 06:32.360
więcej sensownym, czym jest Cross entropia i będzie mniej tak.

06:32.360 --> 06:39.290
Moim celem w tym trudu jest sprawić, byś czuł się bardziej komfortowo od wieku średniowiecza, ponieważ

06:39.320 --> 06:43.840
może wydawać się bardzo zawiły i nie ma sensu.

06:43.850 --> 06:50.870
Podobnie jak splotowe sieci neuronowe może wydawać się bardzo skomplikowane i przerażające, ale tak nie jest.

06:50.870 --> 06:51.650
Właśnie o to chodzi.

06:51.650 --> 06:54.090
Więc zastosujmy go, abyśmy wiedzieli, że to nie jest przerażające.

06:54.080 --> 06:56.350
A więc to wszystko.

06:56.360 --> 07:01.790
To również wyjaśni, dlaczego robimy to, dlaczego szukamy różnych funkcji przyczyn.

07:01.790 --> 07:06.650
Tak więc sieć neuronowa, jedna sieć neuronowa, powiedzmy, że mamy dwie sieci

07:06.650 --> 07:11.960
neuronowe, a następnie mijamy obraz psa i wiemy, że to jest pies, a nie kot.

07:12.200 --> 07:18.620
A potem mamy kolejny obraz naszego kota tym razem zwierzęcia i to jest kot nie pies, a tutaj mamy patrzymy

07:19.040 --> 07:22.490
na dziurę, która w rzeczywistości jest psem, a nie kotem.

07:22.490 --> 07:24.280
Jeśli spojrzysz bardzo uważnie.

07:24.320 --> 07:28.440
Chcemy więc zobaczyć, co nasze sieci neuronowe przewidują w pierwszym przypadku.

07:28.460 --> 07:36.110
Sieć neuronowa 1 90 procent pies 10 procent kot poprawny brak numeru sieci do 60 procent pies 40 procent

07:36.110 --> 07:38.230
kot wciąż poprawia gorzej.

07:38.270 --> 07:40.030
Ale poprawne.

07:40.280 --> 07:46.040
Druga opcja pierwsza sieć neuronowa 10 procent cat dog 90 procent cat.

07:46.040 --> 07:47.300
Poprawny.

07:47.300 --> 07:53.560
Wiesz, że ta liczba do 30 procent psa jest o 70 procent gorsza, ale wciąż poprawna.

07:53.570 --> 08:01.460
I wreszcie sieć neuronowa w sieci obrazkowej wygrała 40 procent psów, 60 procent kotów błędnie numeruje sieć

08:01.870 --> 08:08.270
neuronową do 10 procent psów, a 90 procent kotów jest niepoprawna i gorsza.

08:08.270 --> 08:15.380
Tak więc kluczem jest to, że pomimo tego, że obaj ludzie netto źle się złączyli w ciągu ostatnich

08:15.620 --> 08:18.870
trzech obrazów, sieć neuronowa przewyższała sieć neuronową.

08:18.890 --> 08:27.010
Tak więc nawet w tym ostatnim przypadku było to bardzo prawdopodobne, gdyby dawał psu 40% szansy, w przeciwieństwie do sieci neuronowej,

08:27.030 --> 08:32.330
aby dać psu tylko 10% szansy lub sieć neuronowa osiąga lepsze wyniki w

08:33.200 --> 08:35.310
porównaniu z siecią neuronową 2.

08:35.520 --> 08:41.780
Teraz przyjrzymy się funkcjom, które mogą mierzyć wydajność, o której mówiliśmy w pewnym

08:41.780 --> 08:42.800
stopniu.

08:43.040 --> 08:48.090
Więc umieśćmy je w tabeli, żeby istniała sieć neuronowa 1, masz niewłaściwą liczbę.

08:48.350 --> 08:49.430
To jest numer obrazu.

08:49.550 --> 08:51.140
A potem obraz, który masz.

08:51.140 --> 08:54.010
Jaka jest przepowiednia 90 procent szympansów i kotów.

08:54.110 --> 09:00.550
Więc jest kapelusz Marable, a wtedy masz rzeczywistą wartość, więc pies jest poprawny, niepoprawny.

09:00.560 --> 09:07.720
To samo dotyczy obrazu numer dwa i to samo dla minimum trzech i to samo dla sieci neuronowej numer dwa.

09:07.750 --> 09:11.060
Tak więc 60 procent psa utrzymało 40 procent na pierwszym obrazie.

09:11.060 --> 09:13.800
Tak właśnie przewidywał, że krotony nie były kotem.

09:13.820 --> 09:14.820
I tak dalej.

09:15.200 --> 09:18.050
A teraz zobaczmy, jakie błędy możemy faktycznie uzyskać.

09:18.050 --> 09:24.940
Więc jakie błędy możemy obliczyć, aby oszacować wydajność i monitorować wydajność naszych sieci.

09:24.950 --> 09:28.480
Tak więc jeden typ błędu nazywany jest błędem klasyfikacji.

09:28.640 --> 09:33.990
I to jest po prostu pytanie, czy to dobrze, czy nie.

09:34.010 --> 09:36.940
Niezależnie od prawdopodobieństwa, po prostu ZROBILIŚMY PRAWO.

09:36.950 --> 09:37.970
Czy zrobiłeś to dobrze.

09:37.970 --> 09:44.790
Więc w obu przypadkach dla obu sieci neuronowych każdy z nich ma jeden.

09:44.810 --> 09:46.330
Więc tak się nie myli.

09:46.340 --> 09:48.460
Więc jedno z trzech źle zrobiło.

09:48.470 --> 09:54.960
Tak więc 33 procent wskaźnika błędu dla sieci 1 i 30 procent wskaźnika błędu dla sieci neuronowej.

09:55.100 --> 09:59.750
Jako punkt odniesienia z tego punktu widzenia obie sieci neuronowe działają na tym samym poziomie, ale wiemy, że to

09:59.750 --> 10:00.250
nieprawda.

10:00.260 --> 10:04.400
Wiemy, że sieć neuronowa Ikhwan przewyższa sieć neuronową.

10:05.120 --> 10:10.850
Dlatego błąd klasyfikacji nie jest dobrym miernikiem, szczególnie w przypadku różnicy błędów średniej kwadratowej z

10:11.810 --> 10:17.960
powrotem i przez to, że zrobiłem te obliczenia w Excelu. Nie chciałem Cię zanudzać, ale możesz

10:17.960 --> 10:22.010
usiąść i zrób to na papierze lub w Excelu.

10:22.010 --> 10:28.760
Są to bardzo proste obliczenia, po prostu weź sumę kwadratów błędów, a

10:28.760 --> 10:35.010
następnie weź średnią w swoich obserwacjach i to prawie wszystko.

10:35.060 --> 10:43.320
Tak więc dla sieci neuronowej dostaje się 25 procent dla sieci neuronowej 2, a otrzymujesz 71 procentowy wskaźnik błędów, tak

10:43.330 --> 10:45.930
jak widać ten jest bardziej dokładny.

10:45.940 --> 10:50.380
Mówi nam, że prawie jeden ma znacznie niższy poziom błędu niż twoja własna sieć.

10:51.150 --> 10:52.970
A potem ponownie krzyż entropii.

10:52.990 --> 10:57.250
Widzieliśmy wzór, który można również obliczyć, jest to nawet łatwiejsze do obliczenia niż średni błąd

10:57.250 --> 11:05.350
kwadratowy Przekrój przez entropię daje 38% dla sieci neuronowej 1 i 1. 0 6 dla sieci neuronowej 2.

11:05.500 --> 11:08.180
Więc możesz zobaczyć wyniki są nieco inne.

11:08.350 --> 11:16.510
Kiedy patrzysz na nie w ten sposób, gdy spojrzysz na siebie, poznasz obszar minispódniczki i krzyżową entropię oraz

11:16.510 --> 11:26.350
pytanie, dlaczego używałbyś krzyżowej entropii ponad średnią kwadratu błędu to nie tylko rodzaj liczb, które mówią, ale wszystkie te obliczenia miały

11:26.350 --> 11:32.030
pokazać tylko, że to wszystko, co można zrobić, wystarczy, że zrobimy to

11:32.050 --> 11:34.680
na papierze, ale nie jest.

11:34.780 --> 11:37.890
To nie jest bardzo intensywna matematyka.

11:37.890 --> 11:41.130
Są to całkiem proste, proste rzeczy.

11:41.200 --> 11:47.680
Ale pytanie, dlaczego używałeś środków powodujących entropię, oznacza, że jest bardzo dobre

11:47.680 --> 11:48.250
pytanie.

11:48.250 --> 11:58.530
Cieszę się, że zapytałeś, że odpowiedź na to pytanie jest taka, że istnieje kilka zalet krzyżowej entropii ponad średni kwadrat

11:58.540 --> 12:01.430
błędu, które nie są oczywiste.

12:01.450 --> 12:07.160
Tak więc wspomnę o parach, ale inne, więc dam ci znać, gdzie możesz dowiedzieć się więcej.

12:07.160 --> 12:18.550
Więc jednym z nich jest to, że jeśli na przykład jesteś na samym początku swojej propagacji pleców, twoja wartość wyjściowa jest

12:18.550 --> 12:22.260
bardzo, bardzo, bardzo mała, bardzo mała.

12:22.360 --> 12:25.680
Jest więc o wiele mniejsza niż rzeczywista wartość, którą chcesz.

12:25.750 --> 12:32.920
Wtedy na samym początku gradient w twoim wspaniałym i przyzwoitym świecie będzie bardzo niski i nie

12:32.920 --> 12:33.840
będziesz wystarczający.

12:33.850 --> 12:40.630
Bardzo trudno jest, aby sieć neuronowa zaczęła coś robić, zaczęła się przemieszczać i zaczęła dostosowywać te

12:40.630 --> 12:45.010
ciężary, a Movistar zaczął się poruszać we właściwym kierunku.

12:45.130 --> 12:50.920
Podczas gdy używa się czegoś takiego jak entropia krzyżowa, ponieważ ma on w sobie ten

12:51.400 --> 12:57.310
logarytm, to faktycznie pomaga on sieci ocenić nawet mały taki obszar i coś z tym zrobić.

12:57.310 --> 12:58.520
Oto jak o tym pomyśleć.

12:58.520 --> 13:03.260
Powiedzmy, że jest to bardzo intuicyjne podejście.

13:03.410 --> 13:08.830
Pojawi się link do matematyki i możesz uzyskać te szczegóły matematyki bardziej

13:08.830 --> 13:11.260
szczegółowo, ale bardzo intuicyjnie.

13:11.260 --> 13:16.030
Powiedzmy, że lubisz swój wynik, który chcesz.

13:16.030 --> 13:22.810
Jest jeden i teraz jesteś na jednej milionowej jednej.

13:22.870 --> 13:23.140
Dobrze.

13:23.170 --> 13:30.790
0 USD. 00 czy jest jeden, a potem poprawiasz się następnym razem, gdy poprawisz wynik

13:30.790 --> 13:32.680
z jednej milionowej na jedną tysięczną.

13:32.860 --> 13:39.330
I jeśli chodzi o to, jeśli obliczysz kwadrat błędu, po prostu odejmując jeden od drugiego.

13:39.610 --> 13:44.980
Albo w zasadzie w każdym przypadku jesteś Kalka w kwadracie i zobaczysz, że błędy kwadratów, kiedy porównujesz

13:44.980 --> 13:48.210
jeden przypadek z drugim, nie zmieniły się tak bardzo.

13:48.220 --> 13:51.940
Nie ulepszyłeś swojej sieci tak bardzo, gdy patrzysz na środkowy kwadrat.

13:52.120 --> 13:58.750
Ale jeśli patrzysz na krzyżową entropię, ponieważ bierzesz logarytm i porównujesz to do

13:58.750 --> 14:01.090
dzielenia jednego na drugi.

14:01.390 --> 14:09.390
Przekonasz się, że rzeczywiście znacznie poprawiłeś swoją sieć, tak że skoki od miliona do 1000 w

14:09.460 --> 14:12.810
warunkach średniego kwadratu będą bardzo niskie.

14:12.820 --> 14:15.710
To będzie nieistotne i nie będzie.

14:15.790 --> 14:22.270
Nie poprowadzi procesu zwiększania nachylenia ani propagacji pleców we właściwym kierunku.

14:22.340 --> 14:28.180
To wszystko będzie kierowało we właściwym kierunku, ale będzie to jak bardzo powolne prowadzenie,

14:28.540 --> 14:34.960
nie będzie miało wystarczającej mocy, natomiast jeśli zrobisz recross entropii przez entropię, zrozumiesz, że nawet

14:34.960 --> 14:42.220
jeśli są to bardzo małe korekty, które tylko wiesz, robisz niewielka zmiana w wartościach bezwzględnych w kategoriach względnych

14:42.220 --> 14:43.770
to ogromna poprawa.

14:43.870 --> 14:46.110
I zdecydowanie zmierzamy we właściwym kierunku.

14:46.110 --> 14:54.820
Kontynuujmy w ten sposób, aby entropia krzyżowa pomogła twojej sieci neuronowej w uzyskaniu optymalnego stanu jest

14:54.820 --> 15:01.090
lepszym sposobem na uzyskanie sieci neuronowej, aby uzyskać optymalny stan.

15:01.090 --> 15:08.260
Należy jednak pamiętać, że działa to tylko wtedy, gdy jest to entropia, która jest jedynie preferowaną metodą klasyfikacji.

15:08.260 --> 15:14.200
Więc jeśli mówisz o takich regresjach jak te, które mieliśmy w sztucznych sieciach neuronowych, wolałbyś iść

15:14.230 --> 15:20.770
ze mną i do kwadratu błędu, podczas gdy entropia krzyżowa jest lepsza dla klasyfikacji i znowu ma związek

15:20.770 --> 15:26.200
z tym, że używamy miękkiego następna funkcja, więc jest to intuicyjne wyjaśnienie tego dobrego

15:26.200 --> 15:31.690
miejsca, aby dowiedzieć się więcej na ten temat, jeśli naprawdę jesteś zainteresowany, wiesz, dlaczego używamy

15:31.690 --> 15:34.740
błędu krzyżowego w stosunku do średniej kwadratowej.

15:35.200 --> 15:43.160
Google wideo Geoffrey'a Hintona nazwał funkcję miękkiego maksimum, a on wyjaśnia to bardzo dobrze i wiesz, że jest

15:43.160 --> 15:48.760
ojcem chrzestnym głębokiej nauki, który i tak może to wyjaśnić lepiej.

15:48.890 --> 15:51.680
A tak przy okazji, każde wideo Geoffrey'a Hintona jest złote.

15:51.680 --> 15:55.590
Po prostu ma ogromny talent do wyjaśniania rzeczy.

15:55.610 --> 16:01.310
Więc to jest takie miłe w porównaniu z krzyżem i mam nadzieję, że daje to coś w rodzaju intuicyjnego zrozumienia tego, co

16:01.310 --> 16:02.110
się tutaj dzieje.

16:02.120 --> 16:08.030
Ale co ważniejsze, nie zniechęca cię pojęcie cross entropy, ponieważ nagłówek wspomina o tym w praktycznych historiach

16:08.030 --> 16:11.280
i chciałem się upewnić, że jesteś na to przygotowany.

16:11.280 --> 16:15.740
I jest to po prostu inny sposób obliczania twojej ostatniej funkcji.

16:15.740 --> 16:21.830
Innym sposobem optymalizacji sieci, która jest specjalnie dostosowana do problemów klasyfikacji,

16:21.860 --> 16:28.180
a zatem splotowych sieci neuronowych, jest ręka w rękę z funkcją miękkiego maksimum.

16:28.280 --> 16:35.480
Więc dodatkowe czytanie, jeśli chcesz wprowadzić światło do entropii krzyżowej, jeśli interesujesz się koncentratem

16:35.480 --> 16:37.170
nieco bardziej oczywiście.

16:37.250 --> 16:43.370
Dobry artykuł do sprawdzenia nazywa się przyjaznym wprowadzeniem do programu Cross Entropia Strat autorstwa Rob

16:44.180 --> 16:45.280
DePietro 2016.

16:45.350 --> 16:46.860
Oto link poniżej.

16:47.150 --> 16:54.350
Bardzo, bardzo ładne, bardzo miękkie i nic, bez skomplikowanej matematyki.

16:54.440 --> 16:59.660
Dobre analogie, dobre przykłady z wykorzystaniem analogii samochodów, patrzysz na samochody i rozmawiasz o

16:59.660 --> 17:04.910
informacjach, bitach i ograniczeniach i wiesz, jak byś zdekoncentrował to całe Unico, więc jest

17:04.910 --> 17:10.730
to dobry artykuł do zobaczenia, a my damy ci dobry przegląd krzyżowego wejścia, jak z wstępnego

17:10.820 --> 17:11.680
punktu widzenia.

17:11.900 --> 17:18.590
Jeśli chcesz zagłębić się w ciężką matematykę, jak to, co tu widzisz, sprawdź artykuł

17:18.680 --> 17:25.180
lub blog, jak zaimplementować sieć neuronową Intermezzo, więc pod względem użycia jest

17:25.220 --> 17:27.410
jak pośrednia rzecz jak.

17:27.550 --> 17:28.910
Intermittency in.

17:28.990 --> 17:35.690
Wiesz jak, kiedy idziesz do teatru i masz ochotę na przerwę między pierwszą częścią a drugą

17:35.690 --> 17:36.290
częścią.

17:36.350 --> 17:40.820
Więc, ponieważ jest jak przechodzenie przez wszystkie te kroki, a potem jest jak i wtedy mówi, że

17:40.820 --> 17:42.210
najpierw muszę to wyjaśnić.

17:42.470 --> 17:44.080
I tak, dlatego nazywa się to intermezzo.

17:44.090 --> 17:51.620
Nie ma innego powodu, o ile rozumiem artykuły Petera Rolandsa 2016, więc oba są całkiem

17:51.620 --> 17:52.470
nowe.

17:52.580 --> 18:00.150
I wiesz, sprawdź to, jeśli chcesz zagłębić się w matematyce kryjącej się za entropią Krossa za miękkim Maxem i

18:00.150 --> 18:02.600
krzyżową entropią w tym artykule.

18:02.930 --> 18:03.790
Więc idziemy.

18:03.860 --> 18:07.360
To wszystko dla tych dwóch.

18:07.370 --> 18:12.780
Mam nadzieję, że udało mi się dodać trochę dodatkowej klarowności i powodzenia w tym.

18:12.830 --> 18:16.970
Będzie zabawnie i skorzystaj z praktycznych samouczków.

18:16.970 --> 18:18.070
Do zobaczenia następnym razem.

18:18.080 --> 18:19.700
Do tego czasu cieszcie się nauką.