WEBVTT

00:00.330 --> 00:02.170
Hallo und herzlich willkommen im Statoil.

00:02.400 --> 00:06.270
OK, also haben wir die Entropie berechnet und der Entropieliste hinzugefügt.

00:06.270 --> 00:11.640
Jetzt machen wir einen zufälligen Drop einer Aktion entsprechend der Wahrscheinlichkeitsverteilung

00:11.700 --> 00:13.190
des nächsten.

00:13.200 --> 00:14.540
Also lass uns das tun.

00:14.540 --> 00:15.780
Das ist der nächste Schritt.

00:15.870 --> 00:19.910
Wir sind immer noch auf dem Laufenden, weil wir hier immer noch auf den Stufen laufen.

00:20.160 --> 00:22.550
Und so wissen Sie jetzt, wie Sie die Action spielen.

00:22.590 --> 00:28.740
Wir werden zuerst eine Variable für die Aktion namens action einführen, dann nehmen wir

00:28.740 --> 00:37.350
unsere Verteilung der Wahrscheinlichkeiten und verwenden die multi no neuronale Funktion, um aus dieser Verteilung der Wahrscheinlichkeiten eine Zufallsentnahme zu

00:37.350 --> 00:41.390
machen, und dann fügen wir diese Daten hinzu.

00:41.500 --> 00:48.550
Es ist daher wichtig zu beachten, dass die Aktion tatsächlich ein Tensor mit nur einem Wert ist, aber Sie sollten

00:48.550 --> 00:51.010
dies nicht als einfachen Wert betrachten.

00:51.010 --> 00:57.050
Sie sollten dies als Tensor-Verdammung nacheinander sehen, die diesen Wert für die Aktion enthält.

00:57.190 --> 01:02.970
Und das ist, weil es nicht immer noch in der gleichen Schleife für die Schleife ausgequetscht wird.

01:02.970 --> 01:09.880
Wir erhalten die logarithmische Wahrscheinlichkeit, die mit der gerade gespielten Aktion verbunden ist.

01:10.170 --> 01:16.750
Wenn ich also meine Glückwahrscheinlichkeit hier datiere, nehme ich das vorherige Glück, das wir hier berechneten,

01:16.810 --> 01:25.480
aus dem vorherigen, und dann werde ich die andere Methode verwenden, in die ich 1 und die gerade eingegangene Aktion eingeben

01:25.480 --> 01:31.510
werde spielen, weil wir die Glückswahrscheinlichkeit erhalten wollen, die mit dieser Aktion verbunden ist.

01:31.510 --> 01:38.230
Das zweite Argument hier werde ich meine Handlung vorbringen, aber es muss eine fürchterliche Folter sein, wie es

01:38.860 --> 01:44.530
von der gesammelten Funktion verlangt wird und die gesammelte Funktion nur mit einer Tensor-Ganzzahl indiziert.

01:44.530 --> 01:48.910
Okay, jetzt haben wir gerade das Aussehen der angezeigten Aktion erhalten.

01:49.030 --> 01:53.790
Und jetzt ist der nächste Schritt, das anzuhängen, was wir hier zur Liste bekommen haben.

01:53.800 --> 01:55.570
Also haben wir den Wert bekommen.

01:55.750 --> 01:58.820
Das haben wir hier als Ausgabe des Modells erhalten.

01:58.840 --> 02:00.880
Dann haben wir auch das Sperrproblem.

02:00.910 --> 02:04.030
Also fügen wir die Sperre der Liste der Sperren hinzu.

02:04.180 --> 02:09.610
Die Entropie wird bereits an die Entropie angehängt und ist weniger gut, und die Belohnungen erhalten sie danach.

02:09.700 --> 02:15.250
Also werden wir uns jetzt dem Wert öffnen und die Werteliste und den Rechtsprozess nachschlagen.

02:15.520 --> 02:16.180
Lass uns das machen.

02:16.180 --> 02:23.800
Wir nehmen unsere Werteliste, wir fügen hinzu, dass wir die Spend-Funktion verwenden,

02:23.920 --> 02:32.700
und wir addieren den Wert, den das Modell perfekt zurückgegeben hat. Dann gilt das

02:32.710 --> 02:36.080
Gleiche für die Sperr-Probs.

02:36.180 --> 02:43.960
Und so können wir in dieser Append-Funktion ein Protokoll unseres Glücks setzen, wahrscheinlich wurde es hier gerade berechnet.

02:43.960 --> 02:47.320
Alles in Ordnung, also sind unsere Listen jetzt gut aktualisiert.

02:47.350 --> 02:53.060
Jetzt spielen wir die Aktion, denn hier haben wir die Aktion durch

02:53.060 --> 02:56.570
Zufallsprinzip aus der Verteilung der Wahrscheinlichkeiten ausgewählt.

02:56.650 --> 03:03.040
Aber wir haben es eigentlich noch nicht gespielt und wir werden es jetzt spielen, damit wir den neuen Zustand erreichen können und

03:03.220 --> 03:06.150
somit den neuen Übergang bekommen und ihn spielen können.

03:06.170 --> 03:10.960
Wir nehmen unsere Umgebung, weil wir die Aktion in unserer Umgebung spielen

03:10.960 --> 03:12.990
und dann die Schrittmethode verwenden.

03:13.210 --> 03:20.650
Im Inneren geben wir die Aktion an, die ausgewählt wurde, um sie abzuspielen, und um dies zu tun, ergreifen wir unsere Aktion und

03:20.650 --> 03:25.280
fügen hinzu, dass keine hinzugefügt wird, da erwartet wird, dass dies die Funktion ist.

03:25.750 --> 03:35.820
Ok, aber das gibt tatsächlich den neuen Status und auch die neue Belohnung zurück, denn durch das Erreichen des neuen Status erhalten wir eine neue

03:36.000 --> 03:43.500
Belohnung und außerdem erhalten wir einen neuen Wert, damit Dunn weiß, ob das Spiel fertig ist oder nicht.

03:43.500 --> 03:49.180
In Ordnung, damit spielen wir die Action, erreichen einen neuen Zustand und wir erhalten eine Belohnung und wir wissen, ob wir mit

03:49.200 --> 03:50.510
dem Spiel fertig sind.

03:50.520 --> 03:52.740
Und sprechen davon, mit dem Spiel fertig zu sein.

03:52.990 --> 03:58.590
Nun, wir werden hier nur etwas hinzufügen, um sicherzustellen, dass ein Agent nicht in einem bestimmten Zustand gestapelt

03:58.590 --> 03:59.180
ist.

03:59.280 --> 04:04.240
Und um das zu tun, werden wir das auf folgende Weise sehr gut aktualisieren.

04:04.860 --> 04:11.910
Nun, es wird gleich erledigt sein oder wir werden eine Bedingung hinzufügen, die besagt, dass die Episode des

04:11.910 --> 04:19.200
Spiels nicht zu lange dauern sollte, und wir werden in der Hauptfunktion sehen, dass es einen maximalen Längenparameter

04:19.200 --> 04:21.960
gibt, der gleich ist bis 10000.

04:22.170 --> 04:25.750
Und wir wollen nicht, dass eine Episode länger als 10000 Einheiten dauert.

04:25.860 --> 04:34.200
Wir werden also die Länge einer Episode hören, die der Länge einer Episode entspricht, und wir

04:34.830 --> 04:43.250
werden eine Bedingung schreiben, die größer ist als die maximale Episode Lex, die wir nicht ausführlich gesagt haben.

04:43.250 --> 04:49.210
Wir bekommen es von unseren Parametern für ein Ende hier Paramjit aber Ramstad.

04:49.210 --> 04:50.600
Max ist ausführlich.

04:50.600 --> 04:59.330
Dies bedeutet also, dass, wenn das Spiel beendet ist oder die Länge der Episode größer ist als die maximale

04:59.330 --> 05:02.110
Länge der Episoden, die 10000 beträgt.

05:02.270 --> 05:05.410
Nun ist das Spiel fertig und wir werden ein neues Spiel beginnen.

05:05.960 --> 05:08.040
OK, das ist nur eine Vorsichtsmaßnahme.

05:08.180 --> 05:14.360
Apropos Vorsichtsmaßnahme: Wir werden eine weitere Vorsichtsmaßnahme hinzufügen, um die Belohnung zwischen minus 1 und plus 1

05:14.360 --> 05:15.400
zu halten.

05:15.470 --> 05:20.450
Wir haben bereits die wir hier waren, aber wir wollen sicherstellen, dass die Belohnung zwischen minus 1 und plus 1

05:20.450 --> 05:20.960
liegt.

05:21.140 --> 05:27.740
Und um dies zu tun, müssen wir einfach die Belohnung aktualisieren, indem Sie das Maximum ausnutzen, dann

05:28.240 --> 05:31.060
die Männer der Belohnung und 1.

05:31.190 --> 05:37.790
Und hier nehmen wir das Maximum der Belohnung und 1 und Minus 1, und das wird sicherstellen, dass die Belohnung

05:37.790 --> 05:40.040
zwischen minus eins und eins liegt.

05:40.160 --> 05:40.910
Gut.

05:40.910 --> 05:42.180
Also noch eine Percussion.

05:42.380 --> 05:49.070
Jetzt wollen wir nur prüfen, ob das Spiel fertig ist. In diesem Fall starten wir die Umgebung neu.

05:49.220 --> 05:53.010
Und warum müssen wir das jetzt überprüfen, weil wir gerade einen neuen Zustand erreicht haben.

05:53.090 --> 05:54.880
Wir haben gerade einen neuen Übergang passiert.

05:54.890 --> 05:58.010
Wir müssen das also überprüfen, nachdem wir diesen neuen Übergang passiert haben.

05:58.130 --> 06:06.860
Nun, das Spiel ist nicht fertig. Wenn das Spiel erneut beendet wird, werden die

06:07.250 --> 06:14.180
Umgebungen neu gestartet, indem die Episodenlänge auf Null gesetzt wird.

06:14.330 --> 06:21.800
Und auch der Zustand wird neu initialisiert, um die Umgebung neu zu initialisieren

06:21.800 --> 06:25.270
und die Reset-Funktion OK zu verwenden.

06:25.310 --> 06:29.040
Jetzt kommen wir aus diesem Zustand heraus, der gerade geprüft wurde.

06:29.230 --> 06:34.640
Und jetzt tun wir, seit wir einen neuen Zustand erreicht haben, während dieser neue Zustand

06:34.640 --> 06:40.410
gerade von Ray bestimmt ist, denn die Zustände sind die Eingabebilder, die ursprünglich durch Arrays benannt wurden.

06:40.570 --> 06:44.430
Nun müssen wir also den neuen Staat in eine gefolterte Antwort verwandeln.

06:44.600 --> 06:50.410
Wir werden also unseren Zustand aktualisieren und die Fackelbibliothek verwenden.

06:50.630 --> 07:00.880
Und natürlich gibt die nicht-thailändische Funktion zur Umwandlung dieser Nichtzahler die Eingangsbilder in einen Brennersensor

07:00.890 --> 07:01.800
an.

07:02.150 --> 07:03.150
Perfekt.

07:03.260 --> 07:08.620
Und das letzte, was wir tun müssen, bevor wir aus dieser for-Schleife aussteigen, die die Schleife

07:08.810 --> 07:13.030
unserer Schritte ist. Nun, es ist natürlich die Belohnung für die Watchlist.

07:13.040 --> 07:18.310
Das ist das letzte, was aktualisiert werden muss. Wir haben hier alle Listen mit Ausnahme der Belohnung aktualisiert.

07:18.320 --> 07:24.830
Also machen wir das jetzt, nehmen wir unsere Belohnungen und verwenden Ihre Gehirnfunktion, um das letzte

07:24.830 --> 07:28.110
Wort anzufügen, das gerade perfekt erhalten wurde.

07:28.220 --> 07:36.110
Und bevor wir die for-Schleife verlassen, müssen wir nur noch eine letzte Überprüfung durchführen, um zu überprüfen, ob

07:37.340 --> 07:39.490
der Vorgang beendet ist.

07:39.530 --> 07:42.550
Also fügen wir hier einfach eine Pause hinzu.

07:42.560 --> 07:48.590
Das heißt, wenn wir damit fertig sind, stoppen wir die Erkundung und gehen direkt

07:48.590 --> 07:56.930
zum nächsten Schritt über, dem Update des gemeinsam genutzten Modells. Jetzt sind wir damit fertig, da der Agent seine Erkundung nun

07:56.930 --> 07:57.980
durchgeführt hat.

07:58.190 --> 08:04.910
Es wird das gemeinsam genutzte Modell aktualisieren, und wir werden uns im nächsten Tutorial darum kümmern.