WEBVTT

00:00.590 --> 00:03.970
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:04.070 --> 00:05.420
Ich hoffe, dass Ihnen der Kurs bisher gefallen hat.

00:05.420 --> 00:09.050
Und heute sprechen wir über Maßnahmen bezüglich der Auswahlrichtlinien.

00:09.050 --> 00:11.010
Alles klar, lass uns gleich hineingehen.

00:11.030 --> 00:17.930
Zuvor haben wir darüber gesprochen, dass wir unser einfaches Lernen um ein neuronales Netzwerk erweitert haben.

00:18.020 --> 00:21.230
Bis jetzt haben wir ein tiefes Lernen.

00:21.230 --> 00:26.620
Wir haben viel über den Lernteil geredet und einige Elemente hinzugefügt.

00:26.630 --> 00:30.020
Und heute reden wir über diesen Teil, über den Schauspielern.

00:30.020 --> 00:31.290
Schauen wir uns das mal an.

00:31.310 --> 00:38.690
Hier haben wir das, was wir über das Handeln besprochen haben, dass, sobald Sie die Werte eingegeben haben, die Parameter der

00:38.690 --> 00:45.230
Vektor sind, der den Zustandsagenten eindeutig in dieser Umgebung beschreibt, das heißt, nachdem das Lernen abgeschlossen ist oder sogar

00:45.230 --> 00:47.290
bevor das Lernen abgeschlossen ist.

00:47.420 --> 00:52.000
Grundsätzlich erhalten wir alle q-Werte. Daher sind wir nicht an dem Lernen interessiert.

00:52.010 --> 00:57.350
Wir bestehen darauf, zu handeln. Wenn wir also diese Schlüsselwerte haben, wissen wir, welche wir verwenden müssen.

00:57.350 --> 00:58.910
Nun, wenn du darüber nachdenkst.

00:58.910 --> 01:01.890
Q-Werte sind einfach Vorhersagen für den Würfel.

01:01.910 --> 01:08.630
Wie beim einfachen Lernalgorithmus haben wir also nur das mit dem besten und dem höchsten

01:09.180 --> 01:10.420
Wert ausgewählt.

01:10.430 --> 01:15.380
Sobald wir denjenigen mit dem höchsten IQ-Wert haben, ergreifen wir diese Maßnahme, weil uns nur der

01:15.380 --> 01:20.330
höchste Wert erzielt wird und wir wissen, dass die unmittelbare Belohnung des Duval-Rechners erwartet wird,

01:20.360 --> 01:23.100
und der DK-Faktor den Wert des nächsten Datums.

01:23.120 --> 01:29.480
Und es ist eine rekursive Berechnung. Warum also nicht, warum sollten Sie nicht den besten

01:29.480 --> 01:30.570
Wert einnehmen?

01:30.800 --> 01:35.360
Aber wie Sie hier sehen können, ist es hier nicht so einfach, dass wir eine Soft Max-Funktion

01:35.360 --> 01:37.910
verwenden. Hier werden wir über die aktuellen Auswahlrichtlinien sprechen.

01:37.940 --> 01:41.210
In der Realität brauchen wir also nicht nur eine Softwarefunktion.

01:41.300 --> 01:49.190
Wir können unterschiedliche Aktionsauswahl-Richtlinien haben. Wir haben beispielsweise Epsilons gierige Epsilon-Soft-Software, und wir haben die weichen

01:49.470 --> 01:54.950
Macs. Diese ähneln den am häufigsten verwendeten Aktionsauswahl-Richtlinien. Natürlich gibt

01:54.960 --> 01:56.300
es andere.

01:56.300 --> 02:02.120
Die einfachste ist zum Beispiel eine sehr einfache Aktion, die einfach die besten auswählt.

02:02.120 --> 02:03.770
Der mit dem höchsten Q-Wert.

02:03.980 --> 02:09.800
Aber warum fliegt dieser Aktionsimpuls nicht und warum gibt es verschiedene Arten von

02:09.800 --> 02:10.510
Aktionsimpuls-Auswahlrichtlinien.

02:10.520 --> 02:15.270
Nun, es kommt alles auf Erkundung statt Ausbeutung an.

02:15.560 --> 02:22.670
Und dies ist der Kern des Verstärkungslernens, da wir bereits ein wenig darüber gesprochen haben, dass Ihr Agent

02:22.880 --> 02:28.400
in einer Umgebung bestimmte Warteschlangenwerte vorhersagen kann, die möglicherweise gut sind, und

02:28.400 --> 02:34.970
es könnte sich als großartig herausstellen, dass diese verfügbar sind und werden gezwungen sein zu erkunden.

02:34.970 --> 02:40.640
Wenn wir zum Beispiel in diesem Fall vorhersagen, dass Q2 das beste ist, dann nimmt Q

02:40.640 --> 02:42.350
To die Aktion an.

02:42.500 --> 02:46.880
Von hier zu Abschnitt 2 und dann bekommt es eine sehr negative Belohnung.

02:46.880 --> 02:51.980
Dann zwingt die Umgebung den Agenten dazu, zu explodieren, denn jetzt wird er lernen, dass ich

02:51.980 --> 02:56.740
dachte, Q2 würde sehr gut sein, aber es stellte sich als sehr schlecht heraus.

02:56.780 --> 02:58.370
Die Ergebnisse sind also nicht sehr schlecht.

02:58.370 --> 03:02.730
Die Netzwerke können sich also aktualisieren, so dass er das nächste Mal in dem Zustand ist, in dem er

03:02.720 --> 03:04.010
wahrscheinlich meine Seele fressen wird.

03:04.190 --> 03:09.470
Sie wissen, wenn es sehr günstig ist, so denken Sie vielleicht, dass es so ist, als würden

03:09.470 --> 03:14.900
Sie ein paar Mal ein paar Strafen oder Strafen brauchen, um zu lernen, dass es um Taten geht.

03:14.990 --> 03:20.030
Aber vielleicht wird er schon bald erfahren, dass ich eine andere Aktion mache und die Handgelenksaktion mache, weil

03:20.030 --> 03:22.020
sie jetzt den besten Wert hat.

03:22.160 --> 03:28.880
Manchmal zwingt die Umgebung den Agenten dazu, andere Aktionen auszuführen, um andere Aktionen zu untersuchen, aber manchmal kann

03:29.180 --> 03:36.860
der Agent feststellen, dass er in einem lokalen Maximum stecken bleibt. Er könnte durch seine anfängliche Erkundung hindurchgehen und fand

03:36.860 --> 03:42.110
heraus, dass dies eine ziemlich coole Aktion ist Ich werde gleich hier gehen.

03:42.200 --> 03:43.920
Und diese d'esprit-Kollektion.

03:43.940 --> 03:49.760
Aber das Problem ist, dass es der Meinung ist, dass es die beste Aktion ist, einfach weil

03:49.760 --> 03:55.850
es nicht erkundet wurde, ob es um seine Nase geht oder wenn Sie nach links gehen, um nach

03:56.360 --> 04:01.490
rechts zu gehen irgendwie wie voreingenommen gegenüber dieser Handlung und denken, dass eine gute

04:01.490 --> 04:03.800
Handlung weiter andauert, sie wird weitergehen.

04:03.840 --> 04:06.570
Er wird weitermachen, wird tatsächlich eine gute Belohnung bekommen.

04:06.620 --> 04:14.000
Aber was wäre, wenn diese Aktion noch besser gewesen wäre, wenn diese Aktion so viel besser

04:14.060 --> 04:19.310
gewesen wäre, wenn sie von dieser Aktion gewusst hätte, dann würde

04:19.310 --> 04:23.580
sie tatsächlich zu dieser Aktion wechseln verstärkt werden

04:23.630 --> 04:27.770
Dies wird sich immer weiter verstärken, oder die Gewalt wird es verstärken, dass dies eine

04:27.770 --> 04:29.450
gute Maßnahme ist, um dies fortzusetzen.

04:29.510 --> 04:35.330
Aber in Wirklichkeit ist es so, dass es diese andere Aktion gibt, die noch nicht gefunden wurde oder noch nicht erforscht wurde.

04:35.570 --> 04:37.090
Das wäre viel besser gewesen.

04:37.130 --> 04:43.790
Was wir also tun wollen, ist, dass wir eine tatsächliche Auswahlpolitik vorlegen wollen, die es unserem Agenten erlaubt, nicht in

04:43.910 --> 04:45.800
einem lokalen Maximum zu stecken.

04:45.800 --> 04:50.120
Ja, es ist wichtig für Sie, dass Sie die guten Aktionen, die der Teil der Ausbeutung sind, weiterführen.

04:50.180 --> 04:52.000
Wir werden das, was wir gefunden haben, nicht ausnutzen.

04:52.100 --> 04:56.720
Aber gleichzeitig wollen wir immer noch erforschen, wir wollen nie aufhören zu erforschen, wie im Leben Sie nie aufhören wollen zu

04:56.720 --> 04:59.000
lernen, dass Sie aufhören zu lernen, dass Sie sterben.

04:59.120 --> 05:05.030
Das sind Dinge wie das, wenn Sie nicht wachsen, sterben Sie oder etwas ist so, dass Sie weiter lernen

05:05.090 --> 05:07.580
möchten und Ihr Agent möchte weiter lernen.

05:07.760 --> 05:10.200
An dieser Stelle kommen diese Richtlinien zur Auswahl der Maßnahmen ins Spiel.

05:10.400 --> 05:16.190
Wir haben drei von Ihnen hier aufgelistet, so dass der erste von Epsilon gierig ist. Es ist ein sehr

05:16.190 --> 05:22.140
einfaches, es klingt ziemlich komplex in dem Sinne, als hätte es einen coolen Namen und normalerweise Dinge mit chirurgischen Namen.

05:22.370 --> 05:23.170
Es ist eigentlich nicht so.

05:23.180 --> 05:31.530
Im Grunde ist es also so, dass es denjenigen mit dem besten Q-Wert und Epsilon wie Epsilon auswählt,

05:31.540 --> 05:35.240
den Sie an anderen Orten hören können.

05:35.240 --> 05:41.210
In diesem Fall verwenden wir es daher, um zu glätten, so dass unsere Al-Q-Werte zu den Verkäufen wie

05:41.540 --> 05:45.980
die mit dem höchsten Q-Wert sind, mit Ausnahme des Prozentsatzes von Epsilon.

05:45.980 --> 05:53.300
Wenn Sie beispielsweise epsilon auf 10 Prozent setzen, gehen Sie zu oder 0. Mehr als 10 Prozent der Zeit, zu

05:53.300 --> 05:56.740
der die Aktion zufällig ausgewählt wird.

05:56.750 --> 06:01.990
In 90 Prozent der Fälle werden Sie immer noch die beste Aktion basierend auf dem höchsten Wert auswählen.

06:02.120 --> 06:05.580
Aber in zehn Prozent der Fälle wird eine zufällige Aktion ausgewählt.

06:05.600 --> 06:11.120
Einheitlich ist es absolut zufällig eine Aktion oder wenn Sie Epsilon

06:11.420 --> 06:18.380
auf Null Punkt fünf für 0. 05 Das bedeutet, dass der Agent in 95 Prozent der Fälle die Aktion mit dem

06:18.380 --> 06:19.200
höchsten Wert durchführt.

06:19.220 --> 06:22.470
Aber in fünf Prozent der Fälle wird es immer noch eine zufällige Aktion sein.

06:22.490 --> 06:25.550
Es wird also rausgehen und erforschen.

06:25.790 --> 06:31.640
Epsilon's soft ist also sehr ähnlich der Art, warum es FCL

06:31.750 --> 06:39.780
gierig heißt, denn dann wählt man gierig die gute Action aus, abgesehen von dieser kleinen Episode.

06:39.780 --> 06:40.290
Einen Teil der Zeit.

06:40.280 --> 06:46.970
Je niedriger der EPS-Deal ist, desto niedriger wird der Lepp Epsilon, je schmieriger Sie die Art der Aktion

06:46.970 --> 06:53.870
auswählen, die die optimale Aktion ist, und je weniger Sie verlassen, desto weniger Chancen haben Sie zur Erkundung.

06:53.870 --> 06:56.000
Epsilons Soft ist das Gegenteil.

06:56.000 --> 07:02.000
Im Grunde wählen Sie nach dem Zufallsprinzip einen Epsilon-Cent aus.

07:02.000 --> 07:08.240
Also wenn Sie Epsilons wie 0. 1 bis 10 Prozent, dann nur 10 Prozent der Zeit, in der Sie diese Aktion durchführen.

07:08.490 --> 07:12.410
Und in 90 Prozent der Fälle wählen Sie eine zufällige Aktion aus.

07:12.410 --> 07:19.000
Also, sehr einfache, nur invertierte Algorithmen und ein sanfter Max ist ein bisschen wie der nächste Schritt von oder es ist

07:19.070 --> 07:24.350
eine fortgeschrittenere Version, die ich über Epsilon des epsilon gierigen Algorithmus sagen würde, obwohl beide einen Vorteil

07:24.350 --> 07:26.570
haben und beide einen Platz haben.

07:26.610 --> 07:30.860
Wir werden die Selbstfinanzierung in unserer Codierung für unsere praktischen Dinge verwenden.

07:30.860 --> 07:35.270
Das ist es, worüber wir etwas mehr über Soft Max sprechen werden.

07:35.330 --> 07:36.380
Schauen wir uns das mal an.

07:36.380 --> 07:38.440
Lassen Sie uns hoffentlich zu Ihrem nächsten weitergehen.

07:38.450 --> 07:42.800
Es ist ziemlich klar, dass Ebsen ein ziemlich einfacher Algorithmus ist.

07:42.800 --> 07:45.100
Wählen Sie diese aus.

07:45.230 --> 07:47.790
Die meiste Zeit, außer manchmal zu erkunden.

07:47.800 --> 07:53.820
Und jetzt sehen wir auch, warum es wichtig ist, diese Untersuchung durchzuführen, damit

07:53.840 --> 07:58.780
wir in unserem Optimierungsprozess nicht zu lokalen Höchstwerten kommen.

07:58.880 --> 08:02.680
Am Ende des Kurses gibt es ein Tutorial über weiche Marken.

08:02.750 --> 08:09.560
Ich denke, es ist ein Anhang Nummer zwei, in dem wir über das Konzept von Maxim sprechen, weil Sie hier ein

08:09.560 --> 08:14.650
wenig auffrischen. Wir sprechen hier über neuronale Netzwerke und übrigens werden wir alle über Konvolution

08:14.720 --> 08:15.290
berichten.

08:15.290 --> 08:18.170
In diesem Abschnitt werden nicht die neuronalen Netzwerke der Evolution behandelt.

08:18.210 --> 08:21.470
Natürlich verwenden wir in diesem Abschnitt immer noch einen Vektor.

08:21.800 --> 08:27.770
Aber im nächsten Abschnitt des Kurses, wenn wir eine KI für Doom entwickeln, werden wir ein konvolutionäres neuronales

08:27.770 --> 08:32.870
Netzwerk verwenden, sodass es für Sie von Vorteil sein könnte, in relationalen neuronalen Netzwerken nachzuschauen

08:32.870 --> 08:38.300
und dann ein Selbstmaximum zu erreichen Funktion oder Sie können etwas mehr über Soft Max lernen.

08:38.300 --> 08:43.020
Danach nimmst du die konvolutionellen neuronalen Netzwerke und natürlich später.

08:43.250 --> 08:48.130
Aber hier ist eine kurze Auffrischung. Hier haben wir unser konvolutionelles neuronales Netzwerk, das entscheidet, ob es sich um einen Hund oder

08:48.130 --> 08:48.950
eine Katze handelt.

08:48.950 --> 08:56.090
Hier haben wir also den Abstimmungsprozess zwischen diesen Neuronen, und dieser sagt,

08:56.090 --> 09:04.250
dass es sich um die Funktionen handelt, mit denen Sie die flauschigen Ohren kennen Augen

09:04.250 --> 09:09.930
sehen all diese Merkmale, die zu einem Hund gehören.

09:09.930 --> 09:13.890
Es ist also eine 95-prozentige Chance, dass es sich um einen Hund handelt, und die 5-prozentige Chance, dass es sich um eine Katze handelt.

09:13.910 --> 09:19.460
Aber die Frage ist, wie wir zu diesem Tauriel gekommen sind. Wir reden darüber, wie wir diese Werte zu

09:19.490 --> 09:20.530
einem addieren können.

09:20.870 --> 09:27.650
Was auch immer die Faltung aller unserer neuronalen Netze ist, das Faltungsneuralnetzwerk und die vollständig verbundenen

09:27.650 --> 09:33.300
Lares, egal was es ist, egal welche Werte wir für die Soft Max-Funktion

09:33.300 --> 09:33.980
verwenden.

09:34.010 --> 09:37.720
Hier haben wir die Formel für die Soft-Next-Funktion eingeführt.

09:37.810 --> 09:38.620
Sieht es so aus.

09:38.780 --> 09:40.420
Und dann haben wir diese Werte bekommen.

09:40.620 --> 09:43.460
Und im Grunde ist das eine schnelle Auffrischung.

09:43.460 --> 09:46.050
Dies ist die Formel für das weiche Max.

09:46.100 --> 09:50.900
Es ist das, was es tut, es braucht, egal wie viele Ausgaben Sie haben, spielt keine Rolle.

09:50.900 --> 09:58.130
Es wird sie brauchen und sie werden alle in Werte zwischen 0 und 1 zerquetschen, unabhängig davon, wie groß sie sind. Nur

09:58.130 --> 10:03.720
für mich kann man sehen, dass es eine Gesamtsumme an der Unterseite gibt, so dass diese Geräte

10:03.720 --> 10:04.860
gleich Null sind.

10:04.860 --> 10:08.630
Und auch all diese Werte werden sich immer zu einem summieren.

10:08.700 --> 10:16.770
Das ist also für uns sehr vorteilhaft, denn wenn wir die Soft Max-Funktion verwenden, erhalten wir

10:16.800 --> 10:21.390
diese Werte und wählen diesen besten Ansichtswert aus.

10:21.390 --> 10:26.740
In Wirklichkeit sind diese Werte jedoch die richtigen Zahlen.

10:26.750 --> 10:28.760
Das ist also eine Art Zahlen.

10:28.920 --> 10:31.720
Sie müssen nicht alle zu eins addieren und müssen nicht zwischen 0 und 1 liegen.

10:31.730 --> 10:32.830
Nur ein paar Zahlen.

10:33.140 --> 10:38.520
Wenn wir jedoch Soft Max anwenden, wählen wir nicht einfach die beste aus, die wir tatsächlich

10:38.520 --> 10:44.310
bekommen. Wir bekommen also Zahlen im Bereich zwischen 0 und 1, und das ist auch eine Summe von 1.

10:44.310 --> 10:47.220
Was also wissen wir noch, das ergibt eins.

10:47.340 --> 10:53.010
Wahrscheinlich wissen wir, dass Wahrscheinlichkeiten immer 1 ergeben müssen. Deshalb können wir hier sagen, dass

10:53.010 --> 10:57.990
wir q Werte haben, aber plötzlich sind wir weich oder haben Wahrscheinlichkeiten.

10:57.990 --> 11:02.740
Wir können also sagen, dass die Wahrscheinlichkeit, dass dies die beste Aktion ist, bei 90 Prozent liegt.

11:02.840 --> 11:08.610
Dieser lesbische Teil 5 Prozent 2 Prozent 3 Prozent, weil wir wissen, je höher der Wert, desto besser

11:08.610 --> 11:09.290
die Aktion.

11:09.390 --> 11:14.920
Wenn wir sie also auf 0 zu 1 zerquetschen, werden diese zu Möglichkeiten und wir können sie als solche behandeln.

11:15.090 --> 11:22.840
Und deshalb ist es jetzt, wenn die Aktion ausgewählt wird und so kommen wir zu Q2.

11:22.890 --> 11:28.580
Aber wenn Sie es genau betrachten, ist dies nicht ein striktes 100-prozentiges Ergebnis, und dies sind keine 0% bei Saroo.

11:28.590 --> 11:30.670
Das sind also 5 bis 3 Prozent.

11:30.810 --> 11:42.360
Der natürlichste Weg, den Soft Max anzuwenden, um die Exploration im Algorithmus zu bewahren, besteht darin, diese genauen Wahrscheinlichkeiten als

11:42.480 --> 11:48.600
die Häufigkeit zu verwenden, in der wir diese Aktion ausführen.

11:48.600 --> 11:55.710
Diese Wahrscheinlichkeiten stellen also tatsächlich die Verteilung dieser Aktionen dar, die wir ergreifen. Im Grunde genommen macht Max

11:55.890 --> 12:01.740
uns sehr leicht, einen Weg zu finden, um Ausbeutung und Erkundung zu kombinieren.

12:01.740 --> 12:06.930
Die beste, die beste Aktion wird also immer die hohe Wahrscheinlichkeit haben, weil sie den höchsten Q-Wert hat. Deshalb

12:06.930 --> 12:11.190
werden wir diese hier nur als unsere Distribution verwenden, oder wir werden sagen, okay,

12:11.190 --> 12:16.080
wir nehmen es an Q2 90% der Zeit, aber 5% der Zeit, in der wir noch Q1 nehmen

12:16.120 --> 12:21.170
können, und 2% der Zeit, die wir auf 3 und 3% der Zeit, in der wir Q4 nehmen werden.

12:21.420 --> 12:27.090
Das Schöne an dieser Sache ist auch, dass sich diese Werte mit dem Aktualisieren des Agenten immer

12:27.090 --> 12:35.220
mehr mit der Umgebung vertraut machen, und wenn der Agent das Netzwerk immer mehr durchläuft, werden die Änderungen mit der Umgebung vertraut. Daher werden diese

12:35.210 --> 12:41.640
Aktualisierungen möglicherweise so, dass dieser Wert möglicherweise so aussieht, als ob er dies feststellen könnte Dieser Wert ist tatsächlich geringer

12:41.640 --> 12:47.060
oder der Wert ist höher, und diese Wahrscheinlichkeiten ändern sich auch, wenn ein Agent durchgeht.

12:47.070 --> 12:49.190
Auch wenn wir hier Choo-Choo haben.

12:49.200 --> 12:55.560
Niemand soll sagen, dass manchmal fünf Prozent der Zeit, um genauer zu sein, wir Q1 als die zu wählende

12:55.560 --> 13:00.040
Aktion auswählen, und manchmal oder Aktion 1 werden die ersten Maßnahmen ergriffen.

13:00.180 --> 13:05.280
Manchmal werden Maßnahmen durch zwei Maßnahmen ergriffen, zwei Prozent der Zeit, und Maßnahmen erfordern

13:05.280 --> 13:06.400
etwa drei Prozent.

13:06.420 --> 13:13.800
Jede Aktion hat also eine Chance, in diesem Prozess zu spielen, solange der Agent genügend Iterationen hat,

13:13.800 --> 13:17.930
durchläuft dieser Agent viele Male durch diese Zustände.

13:17.940 --> 13:23.880
Und so funktioniert jeder Algorithmus des tiefen Lernens, den Sie so oft machen möchten,

13:23.880 --> 13:30.030
dass Sie aus Erfahrung lernen und wie Sie hier sehen können, ist dies ein

13:30.030 --> 13:31.840
sehr natürlicher Übergang.

13:31.860 --> 13:37.590
Wir sind nicht einfach zufällig wie ein Epson-Angry-Algorithmus und wählen nicht einfach zufällig die Aktionen aus, die wir

13:37.590 --> 13:44.100
anhand ihrer Soft Max-Werte auswählen, was dazu führt, dass es eine gewisse Logik hat, nicht nur die zufälligen 10 Prozent

13:44.190 --> 13:48.780
der Mal wählen wir eine zufällige Aktion aus, aber es gibt eine Logik dahinter,

13:48.780 --> 13:53.200
wie wir sie ausführen und basierend auf den Schlüsselwerten, die wir untersucht haben.

13:53.280 --> 13:58.620
Das ist also die Aktionsauswahlrichtlinie, die wir in diesem Kurs verwenden werden.

13:58.620 --> 14:04.590
Sie können Ebbs gierigen Action-Bereich Polsce auf jeden Fall besuchen, wenn Sie möchten,

14:04.590 --> 14:10.920
aber wir werden überwiegend die Soft Max-Action-Richtlinien anwenden, und ich habe eine interessante Lektüre für

14:10.920 --> 14:11.490
Sie.

14:11.490 --> 14:17.430
Dies wird adaptive Epsilon-gierige Erkundung im Bereich des Verstärkungslernens basierend auf

14:17.430 --> 14:18.870
Wertunterschieden genannt.

14:18.930 --> 14:27.270
Und es ist interessant, weil Mike Michel nicht sicher ist, wie Michelle auszusprechen ist. Miquel führt

14:27.450 --> 14:36.420
einen anderen Typ von Algrens und angepassten Epsilon-Gieralgorithmus ein und nennt den VDB-VDB-Algorithmus oder den epsilon-gierigen VDB-Algorithmus,

14:37.230 --> 14:40.030
den Sie hier sehen können.

14:40.410 --> 14:46.590
Und er vergleicht im Vergleich zu Ebsens gierigem und weichem Max und es ist

14:46.650 --> 14:55.740
ein absolut gieriger Algorithmus, der im Grunde die Hauptidee dahinter ist, den Wert von epsilon abhängig von dem Zustand des Agenten

14:55.740 --> 14:56.550
anzupassen.

14:56.550 --> 15:01.820
Wenn der Agent also sehr sicher ist, was den Zustand in dem Zustand angeht, sollte Epsilon kleiner

15:01.820 --> 15:06.340
sein, so dass bei einer Beantwortung des Agenten weniger Explorationen erforderlich sein sollten.

15:06.350 --> 15:08.930
Es ist also ein Artikel aus dem Jahr 2010.

15:09.260 --> 15:17.930
Ich bin mir nicht sicher, ob dieser neu vorgeschlagene Algorithmus weit verbreitet ist oder von der Community akzeptiert

15:18.010 --> 15:23.090
wird oder ob künstliche Zeiten irgendwie von diesem Vorschlag abweichen.

15:23.090 --> 15:29.450
Aber es wird Ihnen auf jeden Fall dabei helfen, Ihr Wissen über die Richtlinien zur Aktionsauswahl zu vertiefen. Wir

15:29.450 --> 15:33.180
besprachen die Epsom Ingredion. Die Soft-Naxal-Hilfe hilft Ihnen, Ihnen die

15:33.200 --> 15:38.900
Möglichkeit zu geben, den Standort von Subha zu zwingen und zu sehen, in welche Richtung die

15:38.900 --> 15:46.040
Menschen tatsächlich denken, wenn sie die künstliche Intelligenz verbessern möchten Wenn Sie also jemals wirklich interessante Algorithmen entwickeln möchten, die den

15:46.040 --> 15:51.770
Rand der künstlichen Intelligenz von Elche und den Rahmen in diesem Bereich vorantreiben, könnte dies ein

15:52.130 --> 16:00.140
guter Weg für Sie sein, um zu sehen, in welche Richtung die Leute manchmal denken, wenn sie es versuchen die Normen der künstlichen Intelligenz

16:00.200 --> 16:04.070
oder die Normen zu verbessern, die damals im Jahr 2010 existierten.

16:04.070 --> 16:04.760
Also los geht's.

16:04.790 --> 16:11.020
Hoffentlich hat Ihnen das heutige Tutorial über die Aktionsauswahlregeln gefallen und wir haben etwas über

16:11.060 --> 16:18.240
das abseilgierige Epson Salt und die weichen Macs erfahren. Jetzt sind Sie noch mehr auf die praktische Seite vorbereitet.

16:18.290 --> 16:20.840
Und in diesem Sinne freue ich mich auf Ihren nächsten Schritt.

16:20.840 --> 16:22.570
Und bis dahin genießen Sie AI.
