WEBVTT

00:01.130 --> 00:06.810
Hallo und herzlich willkommen zurück, natürlich zum tiefen Lernen heute sprechen wir über den Kostic-Gefälle-Abstieg.

00:07.220 --> 00:14.450
Zuvor hatten wir etwas über den Gradientenabstieg erfahren und fanden heraus, dass dies eine sehr effiziente Methode ist,

00:14.450 --> 00:19.590
um unser Optimierungsproblem zu lösen, wenn wir versuchen, die Kostenfunktion zu minimieren.

00:19.640 --> 00:29.030
Es dauert im Wesentlichen 10 bis 57 Jahre, um ein Problem innerhalb von Minuten oder Stunden oder innerhalb eines Tages

00:29.480 --> 00:30.940
zu lösen.

00:31.100 --> 00:37.490
Und es hilft wirklich, die Dinge zu beschleunigen, weil wir sehen können, in welche Richtung es bergab geht, und wir können einfach

00:37.490 --> 00:41.400
in diese Richtung gehen und Schritte machen und schneller auf das Minimum kommen.

00:41.600 --> 00:50.030
Beim Stick mit Gradientenabstieg ist es jedoch wichtig, dass die Kostenfunktion konvex sein

00:50.030 --> 00:50.990
muss.

00:51.140 --> 00:57.710
Und wie Sie hier sehen können, haben wir speziell eine konvexe Kostenfunktion ausgewählt. Konvex bedeutet im Wesentlichen, dass

00:58.160 --> 01:05.510
die Funktion dem, was wir jetzt sehen, ähnlich aussieht, als ob es sich nur um eine Richtung in eine Richtung

01:05.510 --> 01:09.220
handelt und das im Wesentlichen ein globales Minimum hat.

01:09.380 --> 01:11.560
Und das ist das, was wir finden werden.

01:11.630 --> 01:14.060
Was aber, wenn unsere Funktion nicht konvex ist.

01:14.060 --> 01:16.250
Was ist, wenn unsere Kostenfunktion nicht korrekt ist.

01:16.370 --> 01:17.810
Was ist, wenn es ungefähr so aussieht.

01:18.020 --> 01:19.660
Zunächst einmal, wie konnte das passieren.

01:19.880 --> 01:27.950
Nun, das könnte passieren, wenn wir zuerst eine Kostenfunktion wählen, die nicht der quadratische Unterschied zwischen warum

01:28.010 --> 01:33.850
und warum ist oder ob wir die Kostenfunktion wählen, die so ist.

01:33.860 --> 01:39.650
In einem mehrdimensionalen Raum kann es dann tatsächlich zu etwas werden, das nicht konvex ist.

01:39.780 --> 01:45.410
Und was würde in diesem Fall passieren, wenn wir einfach versuchen würden, unsere normale Gradientenmethode anzuwenden, könnte so

01:45.410 --> 01:46.390
etwas passieren.

01:46.520 --> 01:51.230
Wir könnten ein lokales Minimum der Kostenfunktion anstelle des globalen finden.

01:51.230 --> 01:57.730
Das war also das beste und wir haben das falsche gefunden und deshalb haben wir nicht das richtige Gewicht.

01:57.740 --> 01:59.940
Wir haben kein optimiertes neuronales Netzwerk.

02:00.230 --> 02:02.480
Wir haben ein subparales neuronales Netzwerk.

02:02.610 --> 02:04.470
Und was machen wir in diesem Fall?

02:04.670 --> 02:09.110
Nun, die Antwort hier ist stochastisch.

02:09.110 --> 02:10.050
Gradientenabstieg.

02:10.070 --> 02:15.260
Es stellt sich heraus, dass der sarkastische Gradientenabstieg nicht erforderlich ist, damit die Ursachenfunktion konvex ist.

02:15.380 --> 02:20.120
Schauen wir uns also die beiden Unterschiede zwischen dem normalen Gradientenabfall, über den wir gesprochen haben, und

02:20.150 --> 02:21.600
dem stochastischen Bereich an.

02:21.860 --> 02:27.920
Normaler grüner Abstieg ist also, wenn wir alle unsere Zeilen aufnehmen, stecken wir sie in unser neuronales

02:27.920 --> 02:33.890
Netzwerk und wieder haben wir das neuronale Netzwerk mehrmals kopiert, aber die Zeilen werden jedes Mal

02:33.890 --> 02:36.050
in dasselbe neuronale Netzwerk eingefügt.

02:36.050 --> 02:39.200
Es gibt also nur einen einjährigen Trick, der nur zu Kissels Handlungszwecken dient.

02:39.350 --> 02:43.880
Und wenn wir sie dann eingesteckt haben, haben wir unsere

02:43.880 --> 02:49.400
Kostenfunktion basierend auf der Formel rechts berechnet und unten auf das Diagramm geschaut. Anschließend

02:49.400 --> 02:54.480
stellen wir die Gewichte ein. Dann wird dies als Gradientenabstiegsmethode bezeichnet diese Batch-Gradientenabstiegsmethode.

02:54.470 --> 03:01.940
Also nehmen wir die gesamte Charge aus unserer Probe, wenden sie an und führen dann aus, dass die stochastische

03:01.940 --> 03:03.730
Gradientenabstiegsmethode etwas anders ist.

03:03.800 --> 03:10.880
Hier nehmen wir die Reihen nacheinander, also nehmen wir diese Reihe, arbeiten unser neuronales Netzwerk und passen dann die

03:10.880 --> 03:12.020
Gewichte an.

03:12.020 --> 03:16.420
Dann gehen wir zur zweiten Reihe und nehmen die zweite Reihe, in der wir unser neuronales Netzwerk betreiben.

03:16.580 --> 03:21.640
Wir schauen uns die Kostenfunktion an und passen die Gewichte erneut an. Dann nehmen wir eine weitere Rohtak-Rose. Wir betreiben

03:21.640 --> 03:25.430
unser neuronales Netzwerk. Wir werden die Kostenfunktion betrachten, mit der wir das Gewicht anpassen.

03:25.430 --> 03:32.660
Im Grunde betrachten wir also, dass wir die Gewichte nach jeder einzelnen Reihe anpassen, anstatt alles zusammen zu

03:32.660 --> 03:36.080
tun und dann zwei verschiedene Ansätze zu testen.

03:36.230 --> 03:39.710
Und jetzt werden wir die beiden nebeneinander vergleichen.

03:39.710 --> 03:42.920
Hier also, wie sie sich visuell an sie erinnern.

03:42.920 --> 03:49.490
Sie haben also den besten Gradientenabstieg, bei dem Sie die Gewichte anpassen, nachdem Sie sie ausgeführt haben, nachdem Sie

03:49.490 --> 03:55.370
alle Zeilen in Ihrem neuronalen Netzwerk ausgeführt haben, und dann im Grunde nur die Gewichte und Sie

03:55.370 --> 04:00.500
die Iteration durchlaufen In der sechsten Klasse im Dezember laufen Sie jeweils eine Reihe

04:00.500 --> 04:06.650
und stellen die Gewichte genau so ein, wie es nur die Gewichte sind. Dann machen Sie alles

04:06.770 --> 04:10.040
wieder und wieder und das nennt man Diskussion.

04:10.080 --> 04:16.580
Sie sagten, dass die beiden Hauptunterschiede darin bestehen, dass die sarkastische

04:16.580 --> 04:27.470
Gradientenabstiegsmethode Ihnen hilft, das Problem zu vermeiden, bei dem Sie lokale Extremwerte oder lokale Minimums anstelle des globalen Gesamtminimums

04:27.470 --> 04:28.620
finden.

04:29.030 --> 04:34.850
Der Grund dafür ist in einfachen Worten, dass es Videos der stochastischen Gradientenabstiegsmethode gibt, die viel höhere

04:35.150 --> 04:38.220
Schwankungen aufweisen, weil sie sich diese leisten können.

04:38.210 --> 04:43.650
Es wird jeweils eine Iteration oder eine Zeile ausgeführt, und daher sind die Schwankungen viel

04:43.650 --> 04:49.440
höher und es ist wahrscheinlicher, dass das globale Minimum und nicht nur das lokale Minimum ermittelt wird.

04:49.460 --> 04:56.480
Und das andere an dem sarkastischen Gefälle-Abstieg halte ich für einen schlechten Gefälle. Es ist wie der erste

04:56.480 --> 05:01.670
Eindruck, den Sie vielleicht haben, ist, dass es immer langsamer wird, aber tatsächlich

05:01.730 --> 05:09.050
ist es schneller, weil es so ist Sie müssen nicht alle Daten in den Speicher laden und ausführen und

05:09.080 --> 05:12.610
warten, bis alle diese Regeln in Kraft sind.

05:12.710 --> 05:16.780
Sie können einfach nacheinander rollen, so dass ein viel leichter Algorithmus

05:16.790 --> 05:24.020
in diesem Sinne viel schneller ist, obwohl er weitaus mehr in diesem Sinne hat, da er mehr Vorteile gegenüber den schlechten hat.

05:24.110 --> 05:25.320
Gradientenabstiegsmethode.

05:25.430 --> 05:31.310
Der Hauptvorteil einer Domäne wie der schlechten Gradientenabstiegsmethode besteht darin, dass es sich um

05:31.310 --> 05:37.250
einen deterministischen Algorithmus oder um einen anderen Gradient handelt als um einen sarkastischen Algorithmus, dh

05:37.250 --> 05:44.570
es ist zufällig und der beste Gradient und die beste Methode, solange Sie dies tun gleiche Startgewichte für Ihr

05:44.570 --> 05:45.430
neuronales Netzwerk.

05:45.500 --> 05:52.300
Jedes Mal, wenn Sie die Batch-Gradienten-Abstiegsmethode ausführen, erhalten Sie dieselben Iterationen und dieselben Ergebnisse, während

05:52.300 --> 05:58.300
Ihre Gewichte aktualisiert werden, damit wir sie für die sarkastische Gradientenmethode verwenden können.

05:58.310 --> 06:04.550
Sie werden das nicht verstehen, weil es sich um eine stochastische Methode handelt, die Sie möglicherweise zufällig

06:04.570 --> 06:10.940
auswählen und Ihr neuronales Netzwerk sarkastisch aktualisieren. Daher werden Sie jedes Mal, wenn Sie die Kategorie als

06:10.940 --> 06:15.380
anständige Methode ausführen Selbst wenn Sie am Anfang die gleichen Gewichte

06:15.380 --> 06:20.770
haben, werden Sie einen anderen Prozess und verschiedene Iterationen haben, um dorthin zu gelangen.

06:20.780 --> 06:28.100
Das ist also in aller Kürze das, worauf man abzielen und abwehren sollte. Es gibt auch eine Methode zwischen

06:28.100 --> 06:34.520
den beiden, die sogenannte Mini-Batch-Gradienten-Abstiegsmethode, bei der Sie die beiden kombinieren und grundsätzlich ausgeführt werden, anstatt

06:34.520 --> 06:37.640
einen ganzen Stapel von Läufen nacheinander auszuführen.

06:37.640 --> 06:44.150
Sie führen Stapel von Zeilen aus, vielleicht 5 10 100, aber für viele Zeilen legen Sie fest, dass Sie diese Anzahl von Zeilen

06:44.150 --> 06:47.690
gleichzeitig ausführen, und dann aktualisieren Sie Ihre einzelnen Ziffern und so weiter.

06:47.900 --> 06:52.670
Wenn Sie mehr über Gradientenabstieg erfahren möchten, gibt es einen

06:52.670 --> 06:56.630
großartigen Artikel, den Sie sich ansehen können.

06:56.660 --> 07:04.940
Es wird ein neuronales Netzwerk in 13 Zeilen von Python-Partien genannt, das von Andrew Trask großartig ist und von den

07:04.940 --> 07:12.840
untenstehenden Links abgerufen wird. Es ist ein guter Artikel, der sehr gut geschrieben ist und sehr einfache Begriffe enthält.

07:12.920 --> 07:21.860
Es hat einige interessante philosophische oder einfach nur interessante Gedanken darüber, wie man grünes anständiges Wasser anwendet, man kennt Vor- und

07:22.340 --> 07:28.460
Nachteile und wie man in bestimmten Situationen vorgeht, so dass man sehr coole Tipps

07:28.460 --> 07:30.730
und Tricks bekommen kann.

07:31.370 --> 07:33.620
Sehr einfach zu lesen, überprüfen Sie das auf jeden Fall.

07:33.800 --> 07:37.010
Und noch ein bisschen schwerer lesen.

07:37.010 --> 07:41.930
Für diejenigen unter Ihnen, die sich für Mathematik interessieren und warum der Mathematik auf den Grund gehen wollen.

07:41.930 --> 07:45.180
Der Gradientenabstieg ist so spezifisch.

07:45.260 --> 07:49.200
Was sind die Formeln, die die Bewertungen beeinflussen? Und wie wird es berechnet und so weiter.

07:49.220 --> 07:51.610
Schauen Sie sich den Artikel oder das Buch an.

07:51.620 --> 07:57.160
Es ist ein kostenloses Online-Buch mit dem Namen Neuronale Netze und tiefes Lernen von Michael Nielsen 2015.

07:57.160 --> 08:02.190
Es ist im Grunde nur alles online, was Sie dort machen können.

08:02.450 --> 08:05.870
Und wieder eine sehr sanfte Einführung in die Mathematik.

08:05.870 --> 08:12.260
Aber für eine Mutter ist die Mathematik aber die Mathematik ziemlich schwer, während Sie den Artikel

08:12.530 --> 08:13.340
durchlesen.

08:13.610 --> 08:20.240
Aber gleichzeitig bringt es dich in die Stimmung, die ich glaube, du hast wie ein

08:20.240 --> 08:25.370
Aufwärmkapitel, in dem du zuerst die Mathematik aufwärmst und dann springst du

08:25.370 --> 08:26.110
in.

08:26.540 --> 08:32.780
Und so geht es also auf den Punkt, der Unterschied zwischen Graney-Sinn, um den

08:32.810 --> 08:36.360
Gradientenabfall zu beeinflussen, und wie man arbeitet.

08:36.410 --> 08:39.830
Und in dieser Hinsicht werden wir heute zusammenarbeiten, sagte Tauriel.

08:39.840 --> 08:42.000
Ich freue mich darauf, Sie beim nächsten Mal zu sehen.

08:42.020 --> 08:44.090
Und bis dahin tiefes Lernen genießen.