WEBVTT

00:00.650 --> 00:05.690
Hallo und willkommen zurück zu dem Kurs. Ich habe im vorherigen Teil über die tiefe lernende

00:05.750 --> 00:08.360
Killary-Intuition gesprochen, die wir dort begonnen haben.

00:08.360 --> 00:14.900
Tatsächlich haben wir den ganzen Weg bis zu diesem Teil geschafft und wo wir über das Lernen gesprochen

00:14.900 --> 00:18.200
haben, und jetzt werden wir zum eigentlichen Schauspielteil übergehen.

00:18.200 --> 00:22.250
Es gibt also zwei Teile zu verschiedenen Teilen, an die wir uns erinnern müssen.

00:22.250 --> 00:25.520
Das ist der Lernteil, aber jetzt hat er das alles tatsächlich gemacht.

00:25.520 --> 00:26.390
Das ist schön.

00:26.390 --> 00:30.500
Jetzt muss er tatsächlich etwas unternehmen, er muss entscheiden, was er tun wird, wird die erste, dritte,

00:30.500 --> 00:31.710
oder vierte Aktion ausführen.

00:31.740 --> 00:32.860
Und wie macht er das?

00:33.020 --> 00:39.370
Nun, wie er es tut, erhält man jetzt dieselben Werte, so dass sich die Werte nicht ändern, nachdem wir diese Werte mit

00:39.370 --> 00:43.430
Calcott den letzten beiden verglichen haben. Die arrogierten Zeiten haben wir zwar aktualisiert, aber

00:43.430 --> 00:45.950
die Werte nicht in diesem ganzen Prozess ändern.

00:45.990 --> 00:47.410
Dort die Würfelwerte haben.

00:47.430 --> 00:48.380
Sie sind fixiert.

00:48.380 --> 00:49.440
Wir wissen was sie sind.

00:49.440 --> 00:50.480
All dies passiert jedoch.

00:50.510 --> 00:53.820
Netzwerke wurden mit den gleichen Werten aktualisiert und aktualisiert, die wir hatten.

00:53.960 --> 00:58.600
Was wir tun werden, ist, dass wir sie mit einer Soft Max-Funktion analysieren.

00:58.610 --> 01:00.580
Und wieder weich Max wie beschrieben.

01:00.620 --> 01:05.160
Ich denke ein Anhang 2 und wir werden ein bisschen mehr über Soft Max sprechen.

01:05.180 --> 01:12.070
Weiter unten in diesem Abschnitt werden wir über diese Aktionsauswahlrichtlinie sprechen.

01:12.140 --> 01:13.610
Also nur in ein paar Tutorials.

01:13.730 --> 01:17.270
Aber jetzt wollen wir nur sagen, dass wir es durch eine sanfte nächste Funktion durchlaufen.

01:17.270 --> 01:22.150
Grundsätzlich ist es möglich, die beste Aktion auszuwählen, die es auswählen kann.

01:22.250 --> 01:23.650
Und dazu gibt es einen kleinen Vorbehalt.

01:23.660 --> 01:26.120
Es ist nicht nur das Beste, was es gibt.

01:26.120 --> 01:28.940
Wir sprechen darüber im Tutorial zur Aktionsauswahl.

01:28.940 --> 01:35.890
Aber jetzt sagen wir einfach, es wählt die beste Aktion von hier aus, die OK sagt. Q1, Sie kennen die Wahrscheinlichkeit.

01:36.140 --> 01:41.960
Grundsätzlich wissen wir, dass q-Werte den Q-Wert vorhergesagt haben, so dass er sie betrachten und mit OK sagen kann.

01:41.960 --> 01:46.280
Der höchste Q-Wert dieser Werte ist genau so wie bei dem einfachen Q-Lernalgorithmus.

01:46.280 --> 01:50.240
Ich schaue mir das alles an, um die höchsten Werte zu sagen. Ich werde die Aktion auswählen, die wir

01:50.240 --> 01:50.860
ergreifen werden.

01:50.900 --> 01:52.180
Und das ist so ziemlich alles.

01:52.220 --> 01:57.300
So wählt er aus, welche Aktion ergriffen wird, und dann geschieht alles wieder.

01:57.290 --> 02:02.120
Für die nächste Stufe endet der Agent in unserem Fall und das nächste Quadrat des Labyrinths.

02:02.120 --> 02:04.540
Aber im Allgemeinen im nächsten Staat.

02:04.640 --> 02:05.420
Also los geht's.

02:05.420 --> 02:14.660
So speisen wir ein Verstärkungs-Lernproblem in ein neuronales Netzwerk ein, indem wir einen Vektor beschreiben, der den Zustand beschreibt, in dem

02:14.660 --> 02:16.160
wir uns befinden.

02:16.160 --> 02:17.510
Und sobald wir es passen.

02:17.510 --> 02:22.210
Es gibt zwei Teile des Prozesses, die geschehen. Teil eins ist das Lernen.

02:22.400 --> 02:26.840
Denken Sie also an den Teil, in dem wir jeden der Cube-Werte mit dem Ziel

02:26.840 --> 02:32.360
vergleichen und dann den Verlust durch das Netzwerk verbreiten, um die Gewichtungen so zu aktualisieren, dass unser Netzwerk lernt, während

02:32.360 --> 02:34.830
wir durch dieses Labyrinth oder diese Umgebung gehen.

02:35.210 --> 02:41.120
Und der zweite Teil ist natürlich, dass wir handeln müssen, wir müssen eine Aktion auswählen, und hier übergeben

02:41.120 --> 02:46.880
wir die Werte durch eine Soft-Max-Funktion und / oder im Wesentlichen eine Aktionsauswahlrichtlinie, über die wir

02:46.880 --> 02:48.330
weiter unten sprechen werden.

02:48.470 --> 02:53.570
Und dann wählen wir einfach die Aktion aus, die wir ausführen möchten, und führen diese Aktion aus. Dann beginnt der gesamte

02:53.570 --> 02:54.580
Prozess von neuem.

02:54.770 --> 02:59.570
Und dann bekommt der Agent vielleicht das Spiel nicht.

02:59.630 --> 03:01.250
In jedem Fall endet das Spiel.

03:01.250 --> 03:08.270
Und dann wiederholt sich der gesamte Vorgang erneut, und der Agent spielt das gesamte Spiel erneut. Dann hört das auf. Grundsätzlich ist das

03:08.270 --> 03:14.460
ein weiterer Airpark, jedes Mal, wenn der Agent Sie kennt, jedes Mal, wenn das Spiel endet, mit einem Gefallen jenseits

03:14.460 --> 03:16.680
von Fairie, dem Ende eines Flughafens.

03:16.700 --> 03:19.560
Und dann fängt er wieder an und dann fängt er wieder an und dann fängt er wieder an.

03:19.790 --> 03:20.420
Und so weiter.

03:20.420 --> 03:26.810
Das passiert also und dieser Vorgang findet jedes Mal statt, wenn sich der Agent in einem neuen Zustand in Ihnen befindet.

03:26.810 --> 03:32.240
Der Zustand wird hier verschlüsselt. Dies ist also nicht nur für jedes einzelne Spiel wichtig, sondern für jeden

03:32.240 --> 03:33.020
einzelnen Zustand.

03:33.020 --> 03:38.030
Er ist also in einem Zustand, der seine Prozessdaten usw. durchläuft und jedes Mal passiert.

03:38.150 --> 03:41.410
Und so geschieht das Lernen und das Handeln auch.

03:41.720 --> 03:47.090
Das ist tiefes Lernen in der Intuition hinter tiefem Lernen.

03:47.090 --> 03:54.200
Wir haben noch viel mehr zu berichten und dann natürlich auch praktisch und in der Zwischenzeit, wenn Sie weitere

03:54.410 --> 03:56.720
Informationen zum Lernen erhalten möchten.

03:56.720 --> 04:05.200
Wir haben eine empfohlene Lektüre, so dass wir bereits über die Blog-Reihe von Arthur Giuliani gesprochen haben.

04:05.210 --> 04:12.590
Wenn Sie sich das einfache informelle Lernen ansehen, finden Sie in Liftons Ablaufteil 4 den Teil, der für das, was wir heute

04:12.590 --> 04:14.260
besprochen haben, relevant ist.

04:14.270 --> 04:21.170
Beachten Sie, dass er hier über Konvolute spricht. In diesem Abschnitt werden wir nicht über Revolutionen berichten. Wir werden im

04:21.170 --> 04:23.650
nächsten Abschnitt des Kurses darüber sprechen.

04:23.720 --> 04:28.880
Der Unterschied hier ist, dass es nur eine Art Überspringen der Schlussfolgerungen ist. Wir werden im nächsten

04:28.880 --> 04:32.850
Teil des Kurses darüber sprechen, aber der Unterschied liegt in den Entwicklungen.

04:32.850 --> 04:39.170
Sie sehen aus, als würde der Agent das Bild betrachten, und deshalb muss er ein Bild als zusätzliche

04:39.170 --> 04:43.540
Komplikation für den Moment verarbeiten, bei dem wir uns allmählich darauf einstellen.

04:43.580 --> 04:50.060
Im Moment verschlüsseln wir unsere Umgebung durch Sie. Sehen Sie hier. Wir verschlüsseln unsere

04:50.060 --> 04:58.700
Umgebung. Vielleicht möchten Sie diese Umgebung auch als Kodierung unserer Umgebung als oder als Zustandsbeschreibung des Agenten als Vektor betrachten.

04:58.700 --> 05:01.330
In unserem Fall war also ein sehr einfacher Wertvektor.

05:01.490 --> 05:06.190
Manchmal können die Leute in diesem einfachen Fall manchmal oder wie Sie in diesem Blogbeitrag sehen werden.

05:06.290 --> 05:10.180
Manchmal ziehen die Leute die eine heiße und codierte Version dieses Bundesstaates vor.

05:10.180 --> 05:13.380
Im Grunde also, wo jede einzelne Box des Labyrinths eine.

05:13.620 --> 05:17.780
Sie haben also wie ein Vektor für einen Nullfall 12 Werte von drei mal vier.

05:17.800 --> 05:22.130
Es ist also weder 1 noch 0, je nachdem, in welchen Elementen und in welcher Box Sie sich befinden.

05:22.160 --> 05:22.990
In der Umwelt.

05:23.060 --> 05:29.900
Wie auch immer Sie sich entscheiden, Ihre Umgebung und den Zustand Ihrer Umgebung zu kodieren, so ist es beim Kodieren

05:29.900 --> 05:31.520
im Grunde ein Vektor.

05:31.520 --> 05:36.410
Der Schlüssel hier ist, dass es keine Faltung ist. Es ist also nicht wie ein Bild und

05:36.410 --> 05:37.810
es gibt keine Faltungsspannung.

05:37.820 --> 05:43.410
Für uns beginnt es hier und das vereinfacht den Prozess für uns, um allmählich besser zu verstehen.

05:43.550 --> 05:49.130
Und natürlich nicht vergessen, dass dieser Beitrag unhöflich ist und dazu neigt, zu fließen, und wir verwenden in unseren

05:49.130 --> 05:50.090
Tutorials Pi Torche.

05:50.090 --> 05:51.910
Hoffentlich gefällt dir das.

05:51.920 --> 05:59.220
Ein schneller Einstieg in ein tiefes konvolutives tiefes, noch nicht tiefgreifendes Lernen.

05:59.310 --> 06:02.910
Und ich freue mich darauf, Sie als nächstes zu sehen.

06:02.930 --> 06:05.430
Und bis dahin genießen Sie künstliche Intelligenz.
