WEBVTT

00:01.050 --> 00:03.770
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:03.810 --> 00:08.280
Und heute reden wir von Mark über Entscheidungsprozesse oder M. D ..

00:08.760 --> 00:11.120
Mal sehen, was wir heute haben.

00:11.430 --> 00:14.060
Das letzte Mal haben wir mit dem Konzept einer Karte aufgehört.

00:14.070 --> 00:19.980
Da wir die Werte basierend auf der Belman-Gleichung berechnet haben, können wir diese Karte für unseren Agenten in

00:20.010 --> 00:21.060
diesem Labyrinth ableiten.

00:21.240 --> 00:27.570
Und im Grunde bedeutet das, wo der Agent anfängt, sagen wir, er fängt dort an.

00:27.570 --> 00:33.270
Es weiß genau, welche Schritte er unternehmen muss, um zur Ziellinie zu gelangen, sodass es einfach nach rechts geht.

00:33.270 --> 00:35.040
Richtig und fertig.

00:35.070 --> 00:37.540
Und hier ist die Frage, dass es so ist.

00:37.590 --> 00:39.780
Ist es wirklich so einfach?

00:39.780 --> 00:44.690
Ist das Lernen im Bereich der Verstärkung wirklich so, dass Sie wissen, dass ein besseres Wort langweilig ist?

00:44.790 --> 00:46.420
Es ist ja.

00:46.440 --> 00:50.830
Wenn Sie erst einmal die Mathematik erworben haben, müssen Sie nur noch voll damit arbeiten.

00:51.090 --> 00:55.460
Nun, die Realität ist, dass es nicht so einfach ist.

00:55.500 --> 01:01.020
Und das ist gut so, weil dieser Kurs für uns interessanter wird und wir viel

01:01.020 --> 01:02.610
komplexere Probleme lösen können.

01:02.610 --> 01:05.460
Hier kommt also ein Zeichen eines Prozesses.

01:05.490 --> 01:07.770
Aber zuerst werden wir über zwei Dinge sprechen.

01:07.760 --> 01:11.450
Es geht uns um deterministische Suche gegen nicht deterministische Suche.

01:11.700 --> 01:14.750
Sprechen wir über das Konzept der deterministischen Suche.

01:14.820 --> 01:21.570
Dies ist unser Agent im Labyrinth, und deterministische Suche bedeutet, dass, wenn sich der

01:21.570 --> 01:26.980
Agent entscheidet, nach oben zu gehen, die Wahrscheinlichkeit 100% beträgt.

01:27.030 --> 01:28.700
Genau das wird passieren.

01:28.700 --> 01:29.740
Es gibt keine anderen Möglichkeiten.

01:29.740 --> 01:33.690
Sobald die Meldung "Aufwärts" oder "Aufwärtspfeil" angezeigt wird, wird der Aufwärtspfeil angezeigt.

01:33.690 --> 01:35.070
Es gibt keine anderen Möglichkeiten.

01:35.250 --> 01:41.950
Auf der anderen Seite ist eine nichtdeterministische Suche dann der Fall, wenn unser Agent sagt, dass er aufsteigen will.

01:42.130 --> 01:44.430
Sie sind eigentlich ein paar Optionen.

01:44.460 --> 01:48.820
Zum Beispiel könnte es drei Optionen geben, und wir werden uns ein Beispiel ansehen,

01:48.830 --> 01:53.400
bei dem es drei Optionen gibt, aber es muss keine Beschränkung auf drei geben, bevor es

01:53.400 --> 01:59.640
unterschiedlich sein kann, abhängig von dem Problem, dass die Zufälligkeit unterschiedlich sein kann In unserem Fall könnten es drei Optionen sein, mit

01:59.640 --> 02:01.640
einer 80-prozentigen Chance, dass er steigt.

02:01.860 --> 02:07.500
Aber mit einer 10-prozentigen Chance, wenn er nach oben will, geht er tatsächlich nach links, nur weil.

02:07.500 --> 02:11.080
Denn so funktioniert die Umwelt, in der er lebt.

02:11.430 --> 02:14.840
Und mit einer weiteren 10-prozentigen Chance geht er tatsächlich richtig.

02:14.880 --> 02:17.770
Und in diesem Fall fällt er ins Feuer.

02:17.850 --> 02:20.730
So funktioniert das alles.

02:20.760 --> 02:26.760
Dies ist ein Beispiel für eine nichtdeterministische sichere Suche nach einem stochastischen Prozess, und es geht

02:26.760 --> 02:35.370
darum, ein realistischeres Modell dafür zu erstellen, was in einer realen Welt in einem realen Problem tatsächlich vorkommen könnte, denn in sehr seltenen

02:35.370 --> 02:40.560
Situationen kommt es zu solchen Situationen wenn du etwas tust und es passiert

02:40.560 --> 02:41.390
genau so.

02:41.520 --> 02:46.560
Und selbst wenn Sie in Sachen Spiele darüber nachdenken, nehmen Sie an, Sie haben einen Agenten, der Pac-Man spielt.

02:46.740 --> 02:51.270
Es ist nicht immer so, dass er auf dem Platz steht, wenn er auf dem Platz steht.

02:51.360 --> 02:54.260
Er wird jedes Mal das gleiche exakte Ergebnis erhalten.

02:54.460 --> 02:59.820
Nun, er wird tatsächlich nach oben gehen, aber in einem Fall werden Sie in beiden Fällen von einem Geist nicht gefressen.

02:59.820 --> 03:01.570
Er wird von einem Geist gefressen.

03:01.590 --> 03:05.970
Wie Sie sehen, gibt es einige Zufälligkeiten, denn es hängt davon ab, wie sich die Geister bewegen, und sie bewegen

03:05.970 --> 03:07.350
sich nicht immer auf dieselbe Weise.

03:07.350 --> 03:09.370
Sie fangen nicht immer an denselben Orten an.

03:09.510 --> 03:16.140
Es ist also sehr logisch, dass es ziemlich fair ist, dass es eine Zufälligkeit gibt. Es gibt etwas, das

03:16.140 --> 03:21.810
nicht unter der Kontrolle des Agenten steht. Dies ist nur ein Weg für uns, dies darzustellen,

03:21.810 --> 03:27.240
damit wir lernen, wie wir damit umgehen können und wie eine Belman-Gleichung wirkt sich auf

03:27.240 --> 03:29.010
den gesamten Verstärkungslernprozess aus.

03:29.070 --> 03:33.780
Aber gleichzeitig ist die Zufälligkeit natürlich nicht darauf beschränkt, wenn Sie nach oben gehen, besteht eine 10-prozentige Chance, dass Sie nach rechts

03:33.780 --> 03:38.400
oder vorübergehend gehen und einfach nach links gehen, oder wenn Sie auf eine 10-prozentige Chance gehen, gehen Sie nach rechts oder

03:38.400 --> 03:42.840
links oder Sie ' Es stimmt, es gibt eine 10-prozentige Chance, die nach oben oder unten begrenzt ist, wo Sie

03:42.840 --> 03:45.550
enden werden. Manchmal haben Sie vielleicht ein Problem, das genau ist.

03:45.570 --> 03:47.390
Manchmal sind die Möglichkeiten unterschiedlich.

03:47.430 --> 03:52.990
Manchmal läuft die Zufälligkeit auf etwas anderes hinaus, es könnte wie dieses Beispiel heruntergekocht werden.

03:52.980 --> 03:58.890
Pacman-Geister, die Sie essen, essen Sie nicht oder es läuft auf etwas anderes hinaus.

03:58.890 --> 04:05.550
Zum Beispiel gibt es so etwas wie wenn der Agent Doom spielt und dann gibt es so etwas wie ein

04:05.700 --> 04:11.040
Monster, das ihn in einem Fall erschießen wird, und in anderen Fällen besteht die Wahrscheinlichkeit,

04:11.060 --> 04:14.380
dass wir alle erschossen werden und nicht erschossen werden.

04:14.550 --> 04:19.710
Und so und so etwas, das außerhalb der Kontrolle der Agenten liegt, kann ich nicht vorhersagen.

04:19.710 --> 04:25.740
Dies ist, was wir hier in der nichtdeterministischen Suche modellieren, und hier haben wir zwei neue Konzepte direkt

04:25.950 --> 04:32.780
angegangen: ein Kennzeichen von Prozessen und oder ein Kennzeichen von Prozess und ein Markierungszeichen von Entscheidungsprozess, also lassen Sie uns einen

04:32.790 --> 04:34.130
Blick darauf werfen.

04:34.150 --> 04:39.080
Und Sie wissen, wie sehr es mir nicht gefällt, Definitionen und viel Text zur Seite zu stellen.

04:39.090 --> 04:42.280
Aber in diesem Fall müssen wir das durchgehen.

04:42.280 --> 04:46.220
Schauen wir uns also an, dass ein stochastischer Prozess eine Eigenschaft aufweist.

04:46.240 --> 04:51.750
Ob die bedingte Wahrscheinlichkeitsverteilung zukünftiger Zustände des Prozesses von einem bedingten und einem vergangenen und einem

04:51.750 --> 04:58.200
gegenwärtigen Zustand abhängt, hängt nur vom gegenwärtigen Zustand ab und nicht von der Abfolge der Ereignisse, die diesem vorausgegangen sind.

04:58.230 --> 05:00.410
Ein Prozess mit dieser Eigenschaft wird als Marker bezeichnet.

05:01.040 --> 05:06.470
Sehr komplexe Definition und es ist, als ob Sie ein wenig einführen, widerspricht sich nicht nur sich selbst, sondern fühlt sich

05:06.470 --> 05:11.110
an, als würde sie sich selbst widersprechen, so dass hier eine positive Präsenz von Ihrem Standpunkt abhängig

05:11.110 --> 05:11.450
ist.

05:11.480 --> 05:14.450
Gleichzeitig hängt es jedoch nur vom gegenwärtigen Zustand ab.

05:14.510 --> 05:17.510
Lassen Sie sich also nicht zu sehr verstecken.

05:17.670 --> 05:23.050
Ich werde es in einfachen Worten aufschlüsseln.

05:23.060 --> 05:25.310
Also nicht nur deine Wahl, sondern das Ganze.

05:25.310 --> 05:31.640
Ihre Wahl und die Umgebung, es werden nur die Ergebnisse aller Aktionen, die Sie in dieser Umgebung durchführen, nur davon

05:31.640 --> 05:33.900
abhängen, wo Sie sich gerade befinden.

05:33.920 --> 05:35.770
Es wird nicht davon abhängen, wie Sie dorthin gekommen sind.

05:36.110 --> 05:36.560
Und das ist es.

05:36.560 --> 05:40.630
Das ist also eine Frage der Öffentlichkeit und ein Prozess, der diese Eigenschaft hat, wird als Marktprozess bezeichnet.

05:40.880 --> 05:47.570
Um es in ein Beispiel zu bringen, also wenn Ihr Agent hier ist und wenn er geht, wenn er sich entscheidet zu gehen, könnte er

05:47.570 --> 05:48.030
gehen.

05:48.040 --> 05:52.940
Er könnte in unserem Fall in unserem nichtdeterministischen Suchbeispiel tatsächlich nach links und rechts gehen.

05:53.000 --> 05:53.680
Gut.

05:53.690 --> 05:58.940
Das liegt daran, dass wir diese Stadt in unserer Umgebung

05:58.940 --> 05:59.710
haben.

05:59.810 --> 06:01.820
So könnte eines dieser Dinge passieren.

06:01.820 --> 06:07.250
Aber der Schlüssel hier ist, dass dies ein Zeichen des Prozesses ist, weil es uns egal ist, wie Sie hierher gekommen sind.

06:07.250 --> 06:10.700
Er könnte von oben gekommen sein und hier gelandet sein, er könnte von links gekommen sein und hier oben

06:10.700 --> 06:12.370
könnte man von unten kommen und hier oben enden.

06:12.380 --> 06:16.640
Er hätte gerne 100000 Mal hier gespielt und wäre dann hierher gekommen.

06:16.700 --> 06:22.490
Es ist egal, was vorher passiert ist, sondern nur, in welchem Staat er sich gerade befindet.

06:22.520 --> 06:31.160
Die Wahrscheinlichkeiten, nach links oder rechts oder nach oben zu gehen, sind also immer gleich, wenn er sich jetzt in diesem

06:31.160 --> 06:32.250
Zustand befindet.

06:32.690 --> 06:37.530
Das heißt im Grunde nur, dass es egal ist, was passiert ist, bevor wir jetzt hier sind.

06:37.640 --> 06:39.150
In diesem Zustand befinden Sie sich.

06:39.200 --> 06:42.320
Und vergessen Sie nicht, dass dieser Zustand nicht nur bedeutet, wo er steht.

06:42.320 --> 06:48.140
Der Zustand ist der Zustand des gesamten Agenten in der Umgebung, also gibt es wie Monster rechts oder die Monster

06:48.140 --> 06:53.030
links oder Sie wissen, dass der Geist von oben oder unten kommt, egal in welchem Zustand Sie

06:53.090 --> 06:54.530
sich gerade befinden .

06:54.560 --> 06:58.460
Es spielt keine Rolle, wie Sie dorthin gekommen sind, egal wie und wie es dazu gekommen ist, dass Sie sich in diesem Zustand

06:58.460 --> 06:58.790
befinden.

06:58.790 --> 07:02.990
Was in der Zukunft passieren wird, wird nur von dem Zustand bestimmt, in dem Sie sich jetzt befinden.

07:02.990 --> 07:07.440
Plus die Aktionen, die Sie ergreifen, und natürlich die Zufälligkeit, die darüber gelegt wird.

07:07.460 --> 07:14.280
Das ist also ein Prozessmerkmal und ein Markerentscheidungsprozess oder ein MVP- oder Markerentscheidungsprozess.

07:14.390 --> 07:20.390
Bereitstellung eines mathematischen Rahmens für die Modellierung der Entscheidungsfindung in Situationen, in denen die Ergebnisse

07:20.420 --> 07:23.430
teilweise zufällig und teilweise unter Kontrolle stehen.

07:23.570 --> 07:29.120
So wichtig ist es zu verstehen, dass Kennzeichen von Entscheidungsprozessprozessen unterschiedlich sind und unterschiedliche

07:29.150 --> 07:32.210
Konzeptkennzeichen von Prozess zu Markierungen von Prozessen.

07:32.340 --> 07:34.810
Es gibt so einen mathematischen Rahmen.

07:34.970 --> 07:39.080
Gleichzeitig dachte ich, es sei wichtig, dass wir verstehen, was ein Kennzeichen des Prozesses

07:39.170 --> 07:45.140
ist, weil es meiner Meinung nach immer noch hilfreich ist, um das Markierungszeichen des Entscheidungsprozesses zu verstehen, und daher ist ein

07:45.200 --> 07:46.130
Entscheidungszeichenpunkt vorhanden.

07:46.230 --> 07:50.950
Das ist genau das, was wir bisher besprochen haben, so dass der Agent in dieser

07:51.290 --> 07:56.570
Umgebung lebt, in der er zuvor die Kontrolle hatte und die volle Kontrolle über die Vorgänge hatte, jetzt

07:56.570 --> 07:57.530
aber weniger Kontrolle.

07:57.590 --> 08:00.270
Es kann sich entscheiden, nach oben zu gehen, aber es weiß es tatsächlich.

08:00.290 --> 08:05.570
OK, also wenn ich nach oben gehe, besteht eine Chance für Affen. Ich werde diese Versuche nach oben gehen, und die Chancen gehen nach links, und die Chance wird

08:05.560 --> 08:06.170
nach rechts gehen.

08:06.170 --> 08:08.930
Also ist nicht alles unter Kontrolle.

08:08.930 --> 08:13.280
In dieser Umgebung gibt es einige Zufälligkeiten, und genau dies ist das Kennzeichen des

08:13.280 --> 08:18.830
Entscheidungsprozesses und des Markov-Entscheidungsprozesses, das der Agent verwendet, um zu verstehen, was in dieser Umgebung zu tun

08:18.830 --> 08:19.400
ist.

08:19.400 --> 08:22.400
Wir haben also eine Umgebung mit etwas Toxizität, etwas Zufälligkeit.

08:22.550 --> 08:27.000
Und jetzt muss der Agent wählen, ob er nach links oder rechts gehen soll.

08:27.370 --> 08:28.530
Er muss diese Entscheidung treffen.

08:28.520 --> 08:29.820
Er weiß nicht, was er tun soll.

08:30.140 --> 08:36.200
Und um diese Entscheidung zu treffen, wird ein Rahmen angewendet, der einen Entscheidungsprozess verwendet, um

08:36.200 --> 08:40.960
diese Entscheidung zu treffen, was passieren wird, wo es hingeht.

08:40.970 --> 08:47.600
Im Grunde genommen bezieht sich diese Umgebung, die dieses Problem aufwirft, auf das Entscheidungskennzeichen, also auf

08:47.600 --> 08:52.820
das Framework, das der Agent zur gleichen Zeit verwendet, auf das sich

08:52.820 --> 08:55.810
der Agent in einer Marktentscheidungsprozessumgebung bezieht.

08:56.280 --> 09:01.190
Im Grunde haben wir hier zwei Konzepte, die wir als Prozesskennzeichen haben, ist die Art und Weise, in der diese

09:01.190 --> 09:03.740
Umgebung so gestaltet ist, dass die PA die Arbeit erledigt.

09:03.770 --> 09:07.020
Was von wo aus jetzt passiert, hängt nicht von der Vergangenheit ab.

09:07.130 --> 09:11.240
Zur gleichen Zeit haben wir das Zeichen des Entscheidungsprozesses, das ist der Rahmen, den der

09:11.240 --> 09:13.630
Agent verwenden wird, um diese Umgebung zu lösen.

09:13.970 --> 09:18.830
Und die gute Nachricht ist, dass das Kennzeichen des Entscheidungsprozesses oder dieses Rahmens, über das

09:18.830 --> 09:24.730
wir sprechen, eigentlich nur eine Ergänzung zu unserer Frage der Belman-Gleichung ist, die Belman-Gleichung, aber nur ein bisschen raffinierter.

09:24.740 --> 09:26.960
Schauen wir uns das mal an.

09:27.050 --> 09:28.910
Dies ist unsere bisherige Belman-Gleichung.

09:29.030 --> 09:31.030
Es ist das Maximum aller möglichen Aktionen.

09:31.040 --> 09:35.150
Der Wert eines Zustands ist also das Maximum aller möglichen Aktionen, die Sie in diesem

09:35.150 --> 09:35.990
Zustand ausführen können.

09:36.260 --> 09:41.930
Das Maximum ergibt sich aus der Belohnung, die Sie erhalten würden, wenn Sie diese Aktion in diesem Bundesstaat

09:41.930 --> 09:45.410
durchführen würden, zuzüglich eines Abzinsungsfaktors mal dem Wert des nächsten Bundesstaates.

09:45.410 --> 09:47.390
So hatten wir es bisher.

09:47.400 --> 09:52.550
Nun, da wir in unserem gesamten Prozess einige Zufälligkeiten haben, wird sich dieser Teil ändern, weil wir nicht

09:52.550 --> 09:57.620
wirklich wissen, welcher Zustand enden wird, und wir nicht wissen, was am wichtigsten sein wird, wenn wir

09:57.630 --> 10:03.680
hinaufgehen, wird es sein hoch oder wird links sein wird rechts sein, also müssen wir dies tatsächlich mit dem erwarteten Wert

10:03.680 --> 10:04.960
des nächsten Datums platzieren.

10:04.970 --> 10:08.810
Hier werden wir dies ersetzen, so dass es drei mögliche Zustände gibt, in denen wir enden können.

10:08.810 --> 10:15.480
Und so werden wir das durch einen Wert ersetzen, den der Staat als Primzahl hat.

10:15.520 --> 10:18.190
Dass es eine gute Aussicht hat.

10:18.470 --> 10:22.490
Und dieser Zustand hat einen Wert von uns drei Bryne.

10:22.640 --> 10:28.790
Wir werden also den Zustand, in den wir uns eigentlich einlassen wollen, um 80 Prozent vervielfachen, weil so die

10:28.790 --> 10:33.770
Wahrscheinlichkeit, in diesen Zustand zu kommen, plus die Wahrscheinlichkeit, in diesen Zustand zu gelangen, 10

10:33.770 --> 10:39.800
Prozent plus Menschen ist, die in den Staat kommen Nur unser erwarteter Wert. Wenn wir also aus der Statistik

10:39.800 --> 10:46.880
den erwarteten Wert annehmen, in den Zustand zu gelangen, in den wir hineinkommen, dann ist das ein bisschen wie der Durchschnitt. Was

10:47.060 --> 10:52.040
ist der Durchschnitt von dem, was wir bekommen und dann ersetzen wir das hier.

10:52.040 --> 10:56.210
Dann bekommen wir diese Aggression und sie springt sehr schnell, nur weil es ein großes gibt,

10:56.210 --> 10:59.930
aber wenn Sie es sorgfältig betrachten, werden Sie dasselbe über Max hier Max sehen.

10:59.960 --> 11:06.340
Dann hast du r von S und A R von S und sie haben Gamma, du hast Gamma.

11:06.410 --> 11:08.600
Und dann hast du endlich hier v.

11:08.630 --> 11:13.640
Sie wussten genau, dass es eine deterministische Suche war, und Sie wussten, in welche Zustände Sie geraten.

11:13.640 --> 11:16.120
Jetzt wissen Sie nicht mehr, in welchen Zustand Sie sich seit der Einnahme von V begeben.

11:16.120 --> 11:23.300
Sie nehmen den erwarteten Wert des Zustands an, in dem Sie sich befinden, oder des zukünftigen Zustands, oder Sie nehmen einfach nur

11:23.300 --> 11:25.920
den Durchschnitt dessen, was Sie erreichen werden.

11:26.060 --> 11:32.450
Sie wissen also, dass es eine 30-prozentige Chance von 3 Prozent war, dass es im Prinzip so aussieht, als wäre das Plus dieses Plus durch

11:32.590 --> 11:32.900
drei.

11:32.900 --> 11:37.130
Aber in diesem Fall ist es nicht genau der durchschnittliche Durchschnitt.

11:37.130 --> 11:40.410
Es ist ein gewichteter Durchschnitt wegen der Wahrscheinlichkeiten hier.

11:40.430 --> 11:45.980
Hier haben Sie also die Wahrscheinlichkeit, dass Sie sich in dieser Phase befinden, um als Primetime den Wert von s

11:46.040 --> 11:50.630
prime zu bestimmen und einige dieser Primzahlen zu überqueren, die Sie möglicherweise in denjenigen überführen könnten,

11:50.630 --> 11:51.830
der wir sind.

11:51.830 --> 11:54.690
Genau das, was wir hier drei hatten, eins zwei drei.

11:54.890 --> 11:57.330
Addiere sie auf und multipliziere sie.

11:57.330 --> 11:58.040
Hier gilt das gleiche.

11:58.040 --> 11:58.820
Eins zwei drei.

11:58.820 --> 12:01.660
Multiplizieren Sie sie mit den Wahrscheinlichkeiten und addieren Sie sie.

12:02.090 --> 12:05.180
Und das ist deine neue Belman-Gleichung.

12:05.180 --> 12:06.440
Herzliche Glückwünsche.

12:06.470 --> 12:08.990
Daran werden wir in Zukunft weiter arbeiten.

12:09.140 --> 12:15.590
Und das ist der Rahmen, der in Entscheidungsprozessen verwendet wird, also der, der dies

12:15.590 --> 12:16.490
löst.

12:16.620 --> 12:22.670
Diese Agenten lösten dieses ganze stochastische nichtdeterministische Suchproblem, bei dem zufällige Ereignisse auftreten,

12:22.670 --> 12:25.460
die sie nicht steuern können.

12:25.460 --> 12:26.920
Es ist also viel komplexer.

12:26.930 --> 12:30.150
Aber wie Sie sehen können, haben wir langsam daran gearbeitet.

12:30.290 --> 12:33.120
Nun wissen wir bereits darüber Bescheid.

12:33.130 --> 12:35.090
Es gibt Sorgen darüber.

12:35.090 --> 12:36.160
Wir wissen davon.

12:36.170 --> 12:36.710
Wir wissen was sie sind.

12:36.710 --> 12:42.500
Wir haben also nur diesen Teil hier eingeführt, weil Wahrscheinlichkeiten in der

12:42.920 --> 12:49.000
Handlung involviert sind oder die Konsequenzen Ihrer Handlung auf Nichtdeterministen, die auf Wahrscheinlichkeiten beruhen.

12:49.220 --> 12:50.600
Und so gehen wir hin.

12:50.600 --> 12:58.280
So funktioniert ein Marker des Entscheidungsprozesses und die dahinter stehende Gleichung.

12:58.330 --> 13:04.630
Wieder ist es etwas, das eher den realen Problemen der realen Welt, Sinatras oder

13:04.670 --> 13:08.690
sogar Spielszenarien ähnelt, da nicht alles einfach ist.

13:08.690 --> 13:15.880
Es gibt eine gewisse Zufälligkeit von allen Beteiligten und nicht immer wird eine Aktion in einem bestimmten Zustand durchgeführt.

13:15.870 --> 13:18.810
Nawal führt nicht immer zum gleichen Ergebnis.

13:18.890 --> 13:23.150
Das ist also, was wir in Zukunft tun werden, und das wird die

13:23.150 --> 13:24.310
Dinge interessanter machen.

13:24.380 --> 13:29.290
Hoffentlich freuen Sie sich darauf und sehen, was als nächstes kommt.

13:29.690 --> 13:35.870
Und in der Zwischenzeit habe ich für Sie einen wirklich coolen Artikel gefunden, um sich diese Zeit anzusehen.

13:35.870 --> 13:37.460
Es ist ein sehr angewandtes Papier.

13:37.460 --> 13:40.150
Das hier ist wirklich interessant zu lesen.

13:40.160 --> 13:46.810
Es wird eine Übersicht über die Anwendungen von Mark of Decision Process Proces genannt und wurde 1993 von

13:46.820 --> 13:47.970
White geschrieben.

13:47.990 --> 13:56.000
Es gibt einen Link und ich zeige Ihnen Beispiele, wo Markov-Entscheidungsprozesse tatsächlich verwendet werden, um Sinatras im echten Leben

13:56.000 --> 13:59.560
zu modellieren. Ich glaube, ich war sehr aufgeregt.

13:59.560 --> 14:03.880
Ich war beeindruckt von einigen Beispielen der Bevölkerungsernte.

14:03.880 --> 14:09.290
Nehmen wir also an, Sie haben Fisch und wissen, um welche Fischpopulation Sie sich entscheiden

14:09.290 --> 14:12.910
müssen, wie viele Fische wir in diesem Jahr fischen dürfen.

14:13.250 --> 14:14.330
So ist dein gegenwärtiger Zustand.

14:14.330 --> 14:17.220
Das ist die Aktion, die Sie ergreifen. Wie viele können wir in diesem Jahr gedreht haben.

14:17.230 --> 14:20.420
Was sind also die möglichen Ergebnisse davon?

14:20.540 --> 14:22.100
Wie viele Fische werden wir nächstes Jahr haben?

14:22.160 --> 14:25.210
Wie viele Fische haben wir das Jahr danach und das Jahr danach und so weiter.

14:25.250 --> 14:30.230
Und es ist nicht deterministisch, weil es nicht so ist, wenn Sie es in einer Stunde einnehmen und 90 Prozent der Bevölkerung das

14:30.230 --> 14:34.640
nächste Jahr, in dem Sie wissen, dass Sie zu 100 Prozent wissen, dass es nicht gerade eine Predigt ist.

14:34.640 --> 14:39.590
Es gibt bestimmte zufällige Faktoren, die außerhalb unserer Kontrolle liegen, und daher müssen wir

14:39.760 --> 14:43.640
verstehen, was passiert, wir müssen modellieren, was passieren wird. Dort wird

14:43.860 --> 14:46.060
die Landwirtschaft durch eine Marktentscheidung verarbeitet.

14:46.070 --> 14:50.250
Es gibt ein Beispiel wie das Ernten von Getreide, wie viel Getreide wir ernten, wie viel

14:50.280 --> 14:51.440
Geld wir nicht ernten.

14:51.470 --> 14:58.190
Eine andere, die ich wie eine Versicherungsgesellschaft im Bereich Finanzen und Investitionen betrachtete, muss entscheiden, wie viel Geld

14:58.190 --> 15:04.990
sie in jeden Tag, jedes Jahr oder einen bestimmten Zeitraum investiert und es gibt bestimmte Faktoren, die von

15:05.020 --> 15:06.490
ihm kontrolliert werden.

15:06.490 --> 15:11.260
Sie kennen zum Beispiel die Marktbewegungen, wissen aber nicht, was passieren kann, also muss dies tatsächlich

15:11.260 --> 15:12.070
modelliert werden.

15:12.110 --> 15:14.350
Ein Zeichen dafür, welche Entscheidungsprozesse verwendet werden.

15:14.350 --> 15:16.890
Hier können Sie viele Beispiele sehen.

15:16.900 --> 15:20.340
Und das ist die Anzahl von Beispielen, die ich für jeden einzelnen denke.

15:20.650 --> 15:28.030
Und so kennen Sie auch Sportbeispiele für Sport- und Epidemien sowie Kfz-Versicherungen, Inspektionen, Wartungen und Reparaturen,

15:28.090 --> 15:31.030
es ist auch sehr interessant.

15:31.030 --> 15:31.900
Schau dir das an.

15:31.930 --> 15:40.390
Um Ihnen ein Verständnis für hey zu geben, handelt es sich nicht nur um hypothetische Dinge aus der

15:40.390 --> 15:41.130
Matrix.

15:41.140 --> 15:45.580
Dies ist tatsächlich das Szenario der realen Welt, also werde ich Ihnen ein besseres

15:45.580 --> 15:50.410
Verständnis vermitteln, und darüber haben wir im Werbevideo für die Ergebnisse oder die Beschreibung des Kurses gesprochen,

15:50.410 --> 15:55.900
die Sie und Ihre Intuition dazu inspirieren wird, Ihnen Ideen zu geben wie man KI im wirklichen Leben einsetzt.

15:55.900 --> 15:57.820
Das ist deine Chance.

15:57.820 --> 15:59.790
Sehen Sie sich dieses Dokument an, um es zu verstehen.

15:59.900 --> 16:02.890
OK, also werden wir uns mit dem Entscheidungsprozess befassen.

16:02.890 --> 16:07.210
Das ist wirklich cool, wie sie im wirklichen Leben aussehen, und dies könnte möglicherweise einige Ideen

16:07.210 --> 16:13.300
für Sie auslösen, wie Sie sich in Zukunft bewerben könnten, um die Welt zu einem besseren Ort zu machen, und wir wären darüber sehr

16:13.300 --> 16:13.650
glücklich.

16:13.690 --> 16:18.560
Wir würden uns freuen, wenn Sie das, was Sie in diesem Kurs lernen, nutzen können, um die Welt zu einem besseren Ort zu machen.

16:18.730 --> 16:20.050
Wie fantastisch damit.

16:20.380 --> 16:23.170
In diesem Sinne hoffe ich, dass Ihnen das heutige Tutorial gefallen hat.

16:23.170 --> 16:24.540
Ich freue mich auf ein Wiedersehen.

16:24.610 --> 16:26.420
Und bis dahin genießen Sie AI.