WEBVTT

00:01.160 --> 00:04.720
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:04.740 --> 00:07.950
Heute reden wir über den zeitlichen Unterschied.

00:08.100 --> 00:14.310
Jetzt ist es sehr wichtig für den Versuch, weil der zeitliche Unterschied das Herz und die Seele des

00:14.340 --> 00:15.100
Q-Lernalgorithmus ist.

00:15.120 --> 00:22.410
So kommt alles, was wir bisher gelernt haben, im Key Learning zusammen.

00:22.410 --> 00:23.880
Schauen wir uns das mal an.

00:23.910 --> 00:28.040
Erinnern wir uns an die Zeit, als wir über deterministische und nichtdeterministische Suche sprachen.

00:28.410 --> 00:34.960
Und denken Sie daran, wie wir in diesem Fall gesagt haben, wenn der Agent gehen will, geht er und wann.

00:35.070 --> 00:38.740
In diesem Fall will er nach oben gehen, es besteht eine Chance von 10 Prozent, dass er die linke und die

00:38.730 --> 00:41.390
linke Zeit verliert und nach rechts geht, und eine 80-prozentige Chance wird nach rechts gehen.

00:41.400 --> 00:42.390
Geh direkt rauf.

00:42.450 --> 00:46.410
Diese Zahlen sind zwar beliebig und können unterschiedlich sein.

00:46.410 --> 00:52.260
Und dieses ganze Konzept ist, dass es unterschiedliche und unterschiedliche Probleme geben kann, also muss es nicht darum

00:52.320 --> 00:57.090
gehen, in welche Richtung er sich bewegt, nur dass etwas Zufälliges passiert, was außerhalb der

00:57.300 --> 00:59.930
Kontrolle des Agenten in dieser Umgebung liegt.

01:00.060 --> 01:07.470
Der Effekt, den Sie in Erinnerung hatten, war, dass es im deterministischen Beispiel sehr einfach war, die Wii-Werte zu

01:07.470 --> 01:11.030
berechnen, während dies nicht unbedingt immer sehr einfach war.

01:11.040 --> 01:16.530
In unserem Fall könnten wir sie jedoch einfach mit der Belman-Gleichung berechnen, und wir hatten die genauen

01:16.530 --> 01:17.120
Werte.

01:17.370 --> 01:24.810
Und dann, als Sie sich erinnern, erwähnte ich sehr genau, dass diese Werte für das

01:24.810 --> 01:27.810
nichtdeterministische Suchbeispiel aus meinem Kopf sind.

01:27.840 --> 01:29.220
Sie sind nicht Kalka, die wir kennen.

01:29.270 --> 01:33.090
Letztes Mal habe ich gesagt, dass wir sie nicht berechnen müssen, weil es sehr komplex ist.

01:33.090 --> 01:39.600
Aber der Computer kann das und wir sind einfach mit diesen Werten zusammengekommen, die nur Werte sind, die ich erfunden habe.

01:39.600 --> 01:41.310
Aber sie haben die Arbeit erledigt.

01:41.310 --> 01:43.030
Sie haben uns geholfen, das Konzept zu verstehen.

01:43.290 --> 01:47.790
Nun, jetzt kommen wir ein wenig darauf zurück und verstehen, was genau hier los ist.

01:47.790 --> 01:55.420
Warum ist es so viel schwieriger, diese Werte im nichtdeterministischen Beispiel oder allgemein in diesen Problemen in

01:55.420 --> 01:59.570
diesen Umgebungen zu berechnen, und der Agent sie durchläuft.

01:59.580 --> 02:00.400
Warum ist es.

02:00.510 --> 02:03.030
Warum kann es so schwer sein, diese Werte zu berechnen?

02:03.030 --> 02:09.010
Nun, wenn Sie darüber nachdenken, denn wenn sich der Agent beispielsweise von

02:09.090 --> 02:15.270
hier nach rechts bewegt, bewegt er sich nicht notwendigerweise auf diese Weise, manchmal

02:15.450 --> 02:22.290
als Chance, dass er gewinnen wird, anstatt direkt zu gehen Art nach Westen zu gehen.

02:22.470 --> 02:27.360
Der Agent könnte manchmal in den Süden gehen und beispielsweise von hier aus nach Norden.

02:27.360 --> 02:29.220
Er könnte manchmal nach Osten gehen.

02:29.460 --> 02:30.240
So leid.

02:30.240 --> 02:34.680
Anstatt also nach Osten zu gehen, geht er manchmal in den Süden und in den Norden.

02:34.710 --> 02:40.200
Er kann manchmal nach Osten oder Westen gehen, und statt nach Norden geht er manchmal nach Westen oder Osten oder Westen

02:40.200 --> 02:41.160
und so weiter.

02:41.160 --> 02:47.010
So und deshalb Um diesen Wert zu berechnen, müssten Sie wissen, was dieser Wert ist. Interessanterweise

02:47.010 --> 02:51.110
müssen Sie jedoch wissen, um welchen Wert es sich handelt.

02:51.120 --> 02:56.790
Es gibt also viel Rekursion hier und Sie können sich also nicht einfach entscheiden, was diese Werte

02:56.790 --> 02:57.340
sind.

02:57.360 --> 03:01.140
Und diese Rekursion ist darüber hinaus nicht deterministisch.

03:01.140 --> 03:06.000
Manchmal passiert es auf diese Weise. Manchmal ist es ein bisschen bergauf, manchmal nach rechts zu gehen, anstatt

03:06.000 --> 03:08.250
aufzustehen und manchmal nach links zu gehen.

03:08.730 --> 03:09.540
Wenn er gehen will.

03:09.540 --> 03:10.520
Er wird hinaufgehen.

03:10.560 --> 03:17.460
Es ist also dem Zufall unterworfen, und oft wird der Agent diesen Weg oft gehen, und er wird aufwärts gehen und Sie werden

03:17.460 --> 03:22.050
denken, dass Sie von hier aus immer aufsteigen und der Wert des Staates davon

03:22.050 --> 03:27.370
ausgehen wird wird gut sein und dann fällt er plötzlich in die Grube und dieser Wert sinkt.

03:27.620 --> 03:33.600
Daher können Sie sehen, wie die gesamte Berechnung dieser Werte stochastisch ist, weil sie

03:33.600 --> 03:35.370
alle miteinander verbunden sind.

03:35.370 --> 03:40.920
Darüber hinaus haben Sie diese Zufälligkeit in der Umgebung, da es einen

03:40.920 --> 03:42.320
entscheidenden Entscheidungsprozess gibt.

03:42.540 --> 03:47.790
Hier kommt das alles zusammen, und hier werden wir das Konzept der zeitlichen

03:47.790 --> 03:52.370
Differenz einführen, das dem Agenten die Berechnung dieser Werte ermöglicht.

03:52.530 --> 03:55.560
Und hier haben wir uns mit den Werten beschäftigt.

03:55.560 --> 03:59.390
Und seitdem haben wir uns bereits mit Q-Werten befasst, also werden wir daran arbeiten.

03:59.400 --> 04:01.980
Wir werden riesige Werte betrachten.

04:02.010 --> 04:06.090
Wie ich mich erinnere, ist dies unsere Belman-Gleichung für q-Werte.

04:06.180 --> 04:15.090
Also ist der AQ-Wert oder der Wert einer Art Aktion A im Zustand s gleich der Belohnung, die Sie erhalten, nachdem

04:15.090 --> 04:22.770
Sie diese Aktion unmittelbar nach einer Aktion ausgeführt haben. Außerdem erhalten Sie das Maximum, aus dem Sie das

04:22.770 --> 04:26.720
Gamma der Summe aller möglichen Werte erhalten .

04:26.910 --> 04:31.680
Sie erhalten also den erwarteten Wert des Zustands, in dem Sie landen werden.

04:31.680 --> 04:37.710
Wie Sie sich erinnern, gab es eine Formel für die Beldon-Gleichung, und nun sagen wir der Einfachheit halber, dass wir

04:37.710 --> 04:43.670
sie auf die alte Weise und auf eine Art und Weise umschreiben, mit der wir über die Bellmen-Gleichung gesprochen haben,

04:43.680 --> 04:45.850
bevor wir über den Sequester wussten.

04:45.880 --> 04:53.100
Denken Sie also daran, dass dies unsere Belman-Gleichung im Sinne eines deterministischen Suchbeispiels war, denn hier haben Sie

04:53.100 --> 04:57.600
nicht den erwarteten Wert, und Sie haben nicht alle Wahrscheinlichkeiten.

04:57.750 --> 05:03.110
Du hast einfach das, als ob es bestimmt ist, dass du am Ende landest, in welchem Zustand du landest, und

05:03.110 --> 05:05.450
dann sagst du Max in diesem einen Zustand.

05:05.570 --> 05:12.170
Und der Grund, warum wir es umschreiben, ist einfach der einzige Grund, weil es einfacher ist, es zu schreiben, und es wird

05:12.200 --> 05:14.550
einfacher sein, mit der Formel zu fallen.

05:14.550 --> 05:19.340
Wir werden uns also daran erinnern, dass wir diesen Teil dieser Bar ersetzt haben.

05:19.430 --> 05:25.400
Außerdem finden Sie diese Notation in einer Menge Literatur, so dass es für Sie einfacher ist, zusammen mit

05:25.400 --> 05:28.310
anderen Quellen zu folgen, wenn Sie diese studieren.

05:28.370 --> 05:35.390
Denken Sie jedoch daran, dass dieser Wahrscheinlichkeitsansatz hier gemeint ist. Diese Notation ist für uns nur einfacher

05:35.500 --> 05:39.130
zu bedienen und zu verstehen, was los ist.

05:39.140 --> 05:44.180
Ich schaue mir die Gleichungen so an, dass sie nicht zu unübersichtlich sind, aber erinnere mich

05:44.180 --> 05:48.050
noch einmal daran, dass in Wirklichkeit dieser probabilistische Ansatz gemeint ist.

05:48.290 --> 05:52.130
Und so wissen wir eigentlich, dass Tom Silis sich anschaut, was los ist.

05:52.190 --> 06:00.350
Also, hier ist unser leerer Zustand des Labyrinths. Wir haben keine q-Werte. Lassen Sie uns sehen oder wann wir können, aber lassen Sie

06:00.500 --> 06:05.510
uns den Bereich leer. Lassen Sie uns einen der Zustände oder eine Zelle betrachten.

06:05.570 --> 06:07.280
Dieses speziell.

06:07.820 --> 06:11.240
Und hier haben wir Antworten für die Aktion des Aufstiegs.

06:11.240 --> 06:14.290
Wir haben einen q-Wert, den wir berechnen.

06:14.290 --> 06:18.070
Es ist also nicht so, dass wir keine q-Werte haben, aber wir haben es.

06:18.080 --> 06:19.930
Aber wir illustrieren nichts.

06:19.930 --> 06:22.520
Der Einfachheit halber behalten wir nur ein Leerzeichen.

06:22.610 --> 06:28.570
Aber wir haben das Alter schon einige Zeit herumgelaufen und sagen wir hypothetisch, dass

06:28.580 --> 06:36.560
er irgendwie diesen Würfelwert berechnet oder Norf aus diesem Zustand aus dieser spezifischen Zelle und den Werten errechnet hat.

06:36.560 --> 06:40.240
Q S und A und so jetzt, was wir haben.

06:40.240 --> 06:45.070
So ist er momentan mit seinen blauen Pfeilen drauf und der Agent sitzt in dieser Zelle.

06:45.590 --> 06:48.560
Und jetzt muss er eine Wahl treffen, wohin er gehen wird.

06:48.590 --> 06:57.290
Und er weiß, wie wertvoll diese Aktion in Richtung Norden ist, und das ist q Senay, und ich sage das schon mal,

06:57.290 --> 07:01.940
und der Grund dafür ist, dass derjenige, der vor dem Ergreifen

07:01.940 --> 07:10.760
von Taten ist Bevor er die Aktion ausgeführt hat, lautet der Wert hier q und SNH, und jetzt nimmt er die Aktion tatsächlich

07:10.760 --> 07:11.370
vor.

07:11.390 --> 07:13.670
Nehmen wir also an, er ist der Beste.

07:13.670 --> 07:16.440
Er macht die Aktion und geht zur Zelle.

07:16.730 --> 07:24.320
Nun, was jetzt passiert, ist jetzt da. Nachdem wir Maßnahmen ergriffen haben, können wir messen, was dieser Wert ist. Berechnen

07:24.350 --> 07:30.650
Sie diesen Wert einfach den Wert der Belohnung für das Ergreifen dieser Aktion plus das Gamma-mal

07:30.650 --> 07:35.640
das Maximum dieses neuen Zustands, in den er gerade gekommen ist Prim.

07:35.640 --> 07:39.030
Und so das Maximum über alle möglichen Aktionen und Aspirin.

07:39.080 --> 07:44.770
Was wir hier haben, ist also der Wert, den diese Aktion vor sich hatte.

07:44.810 --> 07:47.650
Und dann haben wir diese Metrik anschließend berechnet.

07:47.660 --> 07:54.860
Aber wie Sie sich aus den vorangegangenen vier Monaten erinnern können, wenn wir sehr schnell von der vorherigen Formel zurückgreifen, bei der wir gerade berechnet haben,

07:55.630 --> 08:02.180
ist der Wert tatsächlich der von Q. ein. a wird berechnet.

08:02.210 --> 08:07.930
Also dieser Arite-Teil wird nur separat berechnet, nachdem wir etwas unternommen haben.

08:08.330 --> 08:15.470
Da wir also vorher noch einmal ein Q eines S und einen Wert kannten, etwas, das wir durch unsere Iterationen berechnet

08:15.470 --> 08:16.860
haben, ist Preuss etwas.

08:17.000 --> 08:19.990
Ein Wert, der in unserem Gedächtnis gespeichert ist.

08:20.000 --> 08:26.990
So wie bei einer Nummer, die wir kennen, und jetzt, nachdem die Aktion ausgeführt wird, wissen wir, welche Belohnung er

08:27.050 --> 08:30.270
tatsächlich bekam, welche Belohnung der Agent tatsächlich bekam.

08:30.440 --> 08:33.320
Und wir können diesen neuen Wert berechnen.

08:33.320 --> 08:39.690
Wir berechnen diesen Wert also im Grunde neu, aber jetzt mit neuen Informationen ist die neue Information die Belohnung,

08:39.690 --> 08:41.120
die wir bekommen haben.

08:41.600 --> 08:47.330
Und was noch übrig geblieben ist, ist das, was der neue Wert

08:47.420 --> 08:50.540
für diese spezifischen Daten ist.

08:50.570 --> 08:54.480
Was ist der Wert dieses Wesens in diesem Zustand?

08:54.500 --> 09:02.060
Also im Grunde die Heilung Vanessa-Mae, aber angesichts neuer Informationen und nun wird der zeitliche Unterschied

09:02.150 --> 09:07.700
als Tiddy von a und s von diesen beiden Unterschieden definiert.

09:07.700 --> 09:11.770
Das erste Element ist also Ihr Off-Terra-Wert.

09:11.780 --> 09:16.250
Also die Art wie Q von Esson ein wenig später berechnet.

09:16.550 --> 09:21.880
Und das vorherige quvenzhané A, das Sie in Ihrem Gedächtnis gespeichert hatten.

09:22.070 --> 09:24.170
Und die Frage ist, ob sie anders sind.

09:24.290 --> 09:26.240
Im Idealfall sollten sie also gleich sein.

09:26.240 --> 09:31.750
Im Idealfall sollte dies genauso sein, nur weil dies die Formel für die Berechnung ist.

09:31.790 --> 09:38.060
Aber die Sache ist, dass dies nicht etwas ist, das wir Kalka haben, dies ist etwas, das wir aus empirischen Beweisen haben, etwas,

09:38.060 --> 09:41.320
das wir haben, wenn wir das Labyrinth oft durchlaufen und berechnen.

09:41.320 --> 09:44.330
Das ist etwas, was uns bisher einfällt.

09:44.360 --> 09:46.820
Es hängt nicht mit der aktuellen Iteration zusammen.

09:46.820 --> 09:52.070
Es ist etwas, das wir vor langer Zeit hatten, aber in einer unserer vorherigen Iterationen, die durch

09:52.070 --> 09:53.180
das Labyrinth gingen.

09:53.510 --> 09:57.740
Dies ist etwas, was wir gerade berechnet haben, und es gibt

09:57.740 --> 10:04.720
keine Garantie dafür, dass sie gleich sind oder wegen der Zufälligkeit, die im Labyrinth existiert, weil dies hätte berechnet

10:04.750 --> 10:10.260
werden können und einige CRN-Zufallsereignisse ausgelöst wurden Es können verschiedene zufällige Ereignisse ausgelöst werden, die

10:10.300 --> 10:11.290
ausgelöst wurden.

10:11.740 --> 10:15.680
Und jetzt schreiben wir unsere Helden auf und verschieben sie einfach nach oben.

10:15.700 --> 10:16.900
Wie verwenden wir das?

10:16.900 --> 10:20.470
Die Frage ist in Ordnung, also haben wir diesen zeitlichen Unterschied.

10:20.470 --> 10:21.340
Wie benutzen wir das?

10:21.400 --> 10:23.450
Und warum heißt es die zeitliche Differenz.

10:23.590 --> 10:28.960
Nun, der Grund wird als zeitliche Differenz bezeichnet, weil Sie im Grunde dasselbe berechnen

10:28.990 --> 10:33.460
wie Q von S und A, also den Q-Wert dieser Aktion.

10:33.640 --> 10:36.140
Ihr Calcott hier und Sie berechnen es hier.

10:36.340 --> 10:38.310
Aber der Unterschied ist die Zeit.

10:38.320 --> 10:44.140
Dies ist das Q von S und sie sind zuvor das Q von S und A.

10:44.140 --> 10:49.090
Nun ist Ihre neue Heilung angeboren und die Frage ist, ob es einen Unterschied gab.

10:49.090 --> 10:51.700
Gab es zeitlich eine Verschiebung zwischen ihnen?

10:52.060 --> 10:56.830
Und wie können wir dies zu unserem Vorteil nutzen, wenn tatsächlich eine Verschiebung der Zeit eingetreten ist.

10:57.040 --> 11:02.790
Nun, eine Sache, die wir tun könnten, ist, wir könnten sagen: OK, Sie kennen unsere Fragen. ein. a tut nicht

11:02.830 --> 11:07.490
Dieser neue Wert ist nicht gleich alt, also werden wir den alten loswerden oder den alten vergessen und wir werden

11:07.510 --> 11:09.610
nur verwenden, dass dies ein neuer Wert ist.

11:09.970 --> 11:11.920
Das wäre aber nicht schlau.

11:11.950 --> 11:17.960
Der Grund dafür ist, dass in unserer Umgebung gelegentlich zufällige Ereignisse auftreten können.

11:18.140 --> 11:25.500
Und was ist, wenn unser alter QSA von s. ein. a war etwas, das ständig in 80% der Fälle vorkommt.

11:25.780 --> 11:28.750
Und dann wurde das Gleiche durch 80 Prozent der Zeit dargestellt.

11:28.750 --> 11:33.280
Und dann dieses neue, was zufällig passiert ist.

11:33.280 --> 11:39.610
In diesem Fall werden wir denjenigen wegwerfen, der für den Großteil der Situation verantwortlich ist, und wir werden ihn

11:39.760 --> 11:43.900
durch etwas ersetzen, das nur 10 oder 20 Prozent der Zeit passiert.

11:43.900 --> 11:50.650
Das wäre nicht der beste Ansatz und deshalb wollen wir die Opu-Werte nicht

11:50.650 --> 11:51.990
komplett ändern.

11:52.060 --> 11:56.890
Wir möchten sie wie Schritt für Schritt ein wenig nach und nach ändern.

11:56.890 --> 12:01.980
Aus diesem Grund werden wir diesen zeitlichen Unterschied auf eine bestimmte Art und Weise nutzen, also sagen wir

12:02.020 --> 12:05.080
hier ist eine Formel, die wir uns für SNH nehmen.

12:05.560 --> 12:07.120
Und wir werden es so aktualisieren.

12:07.120 --> 12:12.450
Wir werden den alten Wert der Heilung nehmen, Senay, und wir werden alle fünfmal den zeitlichen

12:12.460 --> 12:13.380
Unterschied hinzufügen.

12:13.420 --> 12:15.730
Also wird Alpha alles richtig lernen.

12:15.730 --> 12:17.410
Das ist ein neuer Parameter, den wir vorstellen.

12:17.410 --> 12:20.070
So schnell lernen Algorithmen.

12:20.080 --> 12:26.390
Im Grunde nehmen wir diesen Unterschied und wir fügen ihn unserer vorherigen KJo-Schlange

12:26.480 --> 12:27.210
hinzu.

12:27.220 --> 12:31.970
Nun, diese Formel macht wahrscheinlich keinen Sinn oder einfach nur durch das Schauen macht sie keinen Sinn, weil Sie hier Covisint

12:31.970 --> 12:34.040
bekommen haben und uns hier ein A geben.

12:34.060 --> 12:39.460
Es ist das Gleiche, also sollten wir uns wahrscheinlich gegenseitig negieren, aber wir mussten das anders

12:39.460 --> 12:40.090
umschreiben.

12:40.390 --> 12:44.080
Also werde ich es Ihnen noch einmal zeigen, also füge ich diesen Formeln nur Zeit hinzu.

12:44.090 --> 12:48.070
Hier ist also q t minus eins der vorangegangenen Jahre.

12:48.070 --> 12:49.780
Q T minus 1 der Vorjahre.

12:49.780 --> 12:56.080
Q T The New Dies sollte auch hier ein Kreis sein, aber egal und hier einen zeitlichen

12:56.080 --> 12:56.750
Alpha-Unterschied.

12:56.810 --> 12:58.750
Dann haben Sie den aktuellen zeitlichen Unterschied.

12:58.750 --> 13:01.190
Sie können also sehen, was wir tun.

13:01.220 --> 13:04.200
OK, lass uns unseren Strom nehmen.

13:04.240 --> 13:10.880
Q ist gleich dem vorherigen Q plus dem zeitlichen Unterschied, den wir bei Times Alpha gefunden haben.

13:11.150 --> 13:16.330
Diese Formel ist hier das Herz und die Seele des Würfellernalgorithmus.

13:16.330 --> 13:18.250
So ist der Cube oder das Update.

13:18.280 --> 13:24.460
Und es ist gut, dass wir bereits gelernt haben, was q ist, was Gamma ist und was das

13:24.460 --> 13:25.300
alles ist.

13:25.420 --> 13:31.740
Jetzt müssen wir nur noch sehen, dass Sie einen vorherigen Q-Wert haben. Ja, das ist gut.

13:31.990 --> 13:37.870
Was dann passieren kann, ist, dass Sie, wenn Sie etwas unternehmen, wenn Sie tatsächlich die Aktion ergreifen, wenn der

13:37.870 --> 13:42.530
Agent handelt, Sie wissen, dass er eine Belohnung erhält und er in einem Zustand landet.

13:42.610 --> 13:46.400
Und damit kann er Aha berechnen.

13:46.420 --> 13:53.220
OK, was hätte dann den Q-Wert dieser Bewegung, die ich gemacht habe?

13:53.530 --> 13:56.390
Und das ist jetzt dieser Teil der Gleichung.

13:56.470 --> 14:02.870
Wenn Sie den alten Q-Wert abziehen, erhalten Sie eine zeitliche Differenz. Jetzt müssen

14:02.920 --> 14:05.410
Sie einen Alpher-Zeitdifferenzunterschied durchführen.

14:05.430 --> 14:06.370
Q Verstehst du das?

14:06.370 --> 14:10.240
Ich glaube, Sie gehen vorbei und jetzt, um das zu beenden.

14:10.240 --> 14:14.890
Dies ist in gewisser Weise ausreichend, um zu verstehen, was los ist, aber um die Dinge

14:14.890 --> 14:18.370
noch mehr zu klären oder vielleicht sogar noch mehr zu verwirren.

14:18.460 --> 14:23.320
Was müssen wir tun, um diesen zeitlichen Unterschied oder diesen einfachen Unterschied oder hier eine Möglichkeit zu finden, ihn in

14:23.320 --> 14:24.180
dieses Format einzufügen.

14:24.190 --> 14:29.840
Also nehmen wir den ganzen Teil und fügen ihn in diese Formel ein. Am Ende steht eine riesige Gleichung.

14:29.920 --> 14:31.490
Auf geht's.

14:31.660 --> 14:32.590
Da ist unsere Gleichung.

14:32.590 --> 14:38.470
Dies ist also die vollständige Gleichung mit der vollständig ausgeschriebenen zeitlichen Differenz.

14:38.560 --> 14:43.690
Und den Grund, aus dem ich es auch geschrieben habe, wird das wahrscheinlich in anderer Literatur

14:43.690 --> 14:45.560
finden, wenn Sie es studieren.

14:45.730 --> 14:50.810
Und das zweite ist, dass es einige Dinge etwas komplexer macht, Formeln länger hat, aber

14:50.810 --> 14:52.300
auch etwas klarer macht.

14:52.300 --> 14:55.940
So sehen Sie zum Beispiel hier, welche Rolle Alpha spielt.

14:55.960 --> 14:58.310
Sie können es besser sehen, weil Sie dies betrachten.

14:58.320 --> 14:58.860
Hier.

14:58.900 --> 15:01.410
Q T minus eins und los geht's.

15:01.420 --> 15:03.760
Q T minus eins mit negativem Vorzeichen.

15:03.760 --> 15:12.170
Wenn Sie also Alpha gleich 1 einstecken, wenn Sie hier eine 1 einfügen, wird dies dies negieren.

15:12.190 --> 15:16.170
Sie werden sich also gegenseitig zerstören und alles, was Sie noch haben, ist dieser Teil.

15:16.480 --> 15:23.080
Und was das bedeutet, ist genau die Situation, in der wir alles in Ordnung gesagt haben, damit Sie einen neuen Wert haben,

15:23.140 --> 15:24.750
der es hätte sein sollen.

15:24.850 --> 15:29.570
Aktualisieren wir unseren Q-Wert mit dem neuen Wert und vergessen Sie, was wir zuvor hatten.

15:29.710 --> 15:35.470
Und wie wir besprochen haben, ist dies nicht der beste Ansatz, weil es hier zufällige Ereignisse gibt und wir die Dinge Schritt

15:35.470 --> 15:36.820
für Schritt aktualisieren möchten.

15:37.530 --> 15:43.590
Und wenn Sie sagen, Alpher ist gleich Null, was passiert, ist, dass Sie diesen ganzen Teil komplett vergessen

15:43.590 --> 15:48.960
und Sie sind süß, der neue oder der aktuelle Teil wird immer gleich dem vorherigen

15:48.960 --> 15:51.720
sein, also sind Sie werde nichts lernen.

15:51.720 --> 15:56.730
Und das bedeutet, dass das, was im Labyrinth passiert, keine Rolle spielt, weil Sie sich vor langer Zeit für Ihren Kuchi-Wert

15:56.730 --> 15:58.940
entschieden haben und Sie es einfach behalten werden.

15:59.230 --> 16:03.200
Deshalb sollte Alfas nicht 0 sein oder sollte es irgendwo dazwischen sein.

16:03.240 --> 16:09.330
Und es wird Ihnen erlauben, langsam zu lernen, Schritt für Schritt wird es Ihnen erlauben, als Ihr oder der Agent,

16:09.360 --> 16:12.720
während es durch das Labyrinth geht, den zeitlichen Unterschied zu bekommen.

16:12.960 --> 16:19.530
Und langsam, aber sicher, wird dieser Wert aktualisiert und aktualisiert, und was

16:19.680 --> 16:25.440
schließlich passieren wird, ist, dass der Algorithmus irgendwann hoffentlich konvergiert.

16:25.710 --> 16:30.960
Und das bedeutet, dass dieser zeitliche Unterschied immer näher an Null wird und

16:30.960 --> 16:37.860
letztendlich ganz nahe bei Null oder sogar 0 0 0 0 sein wird. Dies bedeutet, dass Sie

16:37.860 --> 16:43.050
jedes Mal Ihren neuen Wert oder Ihren neuen Wert bestimmen berechneter Wert.

16:43.350 --> 16:44.430
Was es hätte sein sollen

16:44.440 --> 16:49.950
Also nicht dieses, aber was es hypothetisch genug sein sollte, um den Schritt zu tun, wird gleich Ihrem

16:49.950 --> 16:51.030
vorherigen Q2-Wert sein.

16:51.030 --> 16:55.650
Und dann ist eins Null und das bedeutet, wenn Ihre Temperaturdifferenz gleich

16:56.070 --> 17:02.720
Null ist, bedeutet dies, dass Ihr Algorithmus konvergiert hat und es nicht wirklich notwendig ist, das Update fortzusetzen.

17:02.720 --> 17:06.270
Diese Suche führt die Aktualisierung der Cube-Werte fort.

17:06.270 --> 17:12.780
Der Nachteil dabei ist, dass der einzige Zeitpunkt wahrscheinlich einer der einzigen Zeitpunkte ist, zu denen Sie

17:12.810 --> 17:19.140
dieses gesamte Verfahren fortsetzen möchten. Sie können die Warteschlangenwerte aktualisieren, wenn sich die Umgebung ständig ändert.

17:19.170 --> 17:23.100
Wenn nicht nur es nicht dort ist, hat es nur ein paar Random zu Kostic-Ereignissen.

17:23.220 --> 17:28.750
Aber die Umgebung selbst verändert sich, während sich das Morphing mit der Zeit verändert.

17:29.040 --> 17:34.260
Sie müssen also ständig lernen, da Sie nicht alles lernen und optimale Richtlinien entwickeln

17:34.260 --> 17:39.210
können, da sich die optimalen Richtlinien auch mit der Umgebung ständig ändern.

17:39.240 --> 17:44.730
In diesem Fall müssen Sie CALKIN und die zeitliche Differenz fortsetzen und die Q-Werte berechnen.

17:44.730 --> 17:46.830
Aber ansonsten ist das eine Art zusätzliche Komplikation.

17:46.830 --> 17:53.370
Abgesehen davon ist dies die Aktualisierung der Q-Werte. Dies ist also die Hauptformel des Q-Lernalgorithmus, und

17:54.090 --> 17:59.490
dies ähnelt der erweiterten Version. Nun sollte alles zusammenkommen und sinnvoll sein, warum

17:59.490 --> 18:05.250
wir die Belman-Gleichung haben und nicht Es handelt sich dabei lediglich um das, was

18:05.250 --> 18:12.870
es bedeutet, wie der Agent seine Werte aktualisiert und genau herausfindet, was in dieser Umgebung passiert, damit er die

18:12.870 --> 18:14.620
optimale Richtlinie finden kann.

18:14.640 --> 18:21.570
Ich weiß ziemlich viel zu verstehen, aber hoffentlich hat Ihnen dieses Tutorial

18:21.570 --> 18:28.680
gefallen und hoffentlich konnten Sie die zugrundeliegenden Konzepte und Intuitionen hinter Ihren Werten

18:28.680 --> 18:36.990
wegnehmen und was der Begriff zeitliche Differenz ist Agenten, damit sie ihre Umgebung verstehen, in

18:37.050 --> 18:39.230
der sie arbeiten.

18:39.270 --> 18:45.540
Und wenn Sie ein wenig mehr über zeitliche Unterschiede lernen möchten, dann

18:45.540 --> 18:52.470
lernt ein sehr beliebter Aufsatz durch die Methoden der zeitlichen Unterschiede von Richard Sutton (1980).

18:52.620 --> 18:57.060
Wir hatten bereits eine Referenz von Richard Sutton, aber dies ist wie eine

18:57.060 --> 19:04.620
andere und hat tatsächlich ein Buch. Wenn Sie sich also mit seinem Schreibstil und seinem Kommunikationsstil auskennen, sollten Sie auch sein

19:04.620 --> 19:05.660
Buch lesen.

19:05.810 --> 19:08.630
Es ist eine Art erweiterte Version all dieser Dinge.

19:08.640 --> 19:12.820
Ich habe das Buch nicht gelesen, aber das stelle ich mir zur gleichen Zeit vor.

19:12.960 --> 19:19.530
Dies wird der Zeitung hinzugefügt, und Sie können etwas mehr über die zeitlichen

19:19.530 --> 19:21.050
Unterschiede erfahren.

19:21.300 --> 19:22.950
Und ich hoffe, es hat dir auch gefallen.

19:23.060 --> 19:24.270
Wir sehen uns beim nächsten Mal.

19:24.270 --> 19:26.250
Bis dahin genießen Sie die KI.
