WEBVTT

00:01.060 --> 00:04.460
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.460 --> 00:07.630
Hari ini kita akan berbicara tentang persamaan Belman.

00:07.630 --> 00:12.580
Ini topik yang cukup kompleks dan kami akan memperkenalkannya secara bertahap di seluruh

00:12.580 --> 00:17.110
bagian kursus ini, jadi saya tidak akan langsung melompat ke versi paling

00:17.110 --> 00:21.730
kompleks dari persamaan Belmont tapi kami Akan memperkenalkannya secara perlahan untuk secara bertahap

00:21.730 --> 00:23.250
memahami cara kerjanya.

00:23.410 --> 00:28.480
Dan saya harap tujuan Anda dengan pendekatan itu jika Anda G. R. Mari kita langsung ke dalamnya.

00:28.690 --> 00:33.820
Jadi kita akan memiliki beberapa konsep kunci yang akan kita operasikan dan konsep-konsep ini

00:33.820 --> 00:34.430
ada.

00:34.600 --> 00:41.110
S adalah singkatan dari state sehingga keadaan di mana agen kami berada atau keadaan lain yang memungkinkan di mana ia

00:41.740 --> 00:45.490
dapat mewakili suatu tindakan yang dapat dilakukan oleh seorang agen.

00:45.490 --> 00:50.680
Jadi agen dapat memiliki akses ke daftar tindakan tertentu dan tindakan sangat penting

00:50.680 --> 00:53.610
ketika mereka dilihat dalam kombinasi keadaan.

00:53.620 --> 00:57.880
Jadi ketika Anda dalam keadaan terayun dan kemudian Anda melihat tindakan dan mulai masuk akal

00:57.880 --> 01:01.870
apa yang akan menjadi hasil dari tindakan tersebut karena Anda akan melihat suatu

01:01.870 --> 01:07.390
tindakan dengan sendirinya atau keadaan tidak benar-benar masuk akal karena Anda tidak tahu di mana Anda berada dan di

01:07.390 --> 01:13.240
mana Anda mungkin bisa berakhir dan kemudian kita miliki kita akan memiliki Yang berdiri untuk hadiah dan itu melalui bangsal

01:13.240 --> 01:16.980
bahwa agen mendapat untuk memasuki keadaan tertentu dan gamma adalah faktor diskon.

01:16.990 --> 01:21.510
Dan kita akan berbicara tentang faktor diskon dalam hitungan detik semuanya masuk akal sekarang tetapi mereka hanya

01:21.510 --> 01:21.810
mencatat.

01:21.820 --> 01:26.300
Buat catatan mental bahwa kita akan memiliki surat ini Gamelin yang akan beroperasi nanti.

01:26.620 --> 01:31.230
Jadi orang di belakang persamaan bellman adalah Richard Ernest bellman.

01:31.360 --> 01:39.400
Dia adalah seorang ahli matematika penerbangan dan datang dengan konsep pemrograman dinamis yang sekarang kita sebut pembelajaran

01:39.400 --> 01:43.790
penguatan atau yang kita sebut persamaan Belman sekarang.

01:44.110 --> 01:45.490
Nah itulah yang kami sebut sekarang.

01:45.490 --> 01:52.350
Dan pada tahun 1953 dia datang dengan konsep itu dan saat itulah persamaan Belmont Belman datang kepada saya.

01:52.630 --> 01:56.530
Jadi mari kita lihat bagaimana semua ini bekerja.

01:56.540 --> 02:02.410
Ada agen kami yang indah di sudut kiri bawah dan dia berada di labirin dan ini adalah labirin

02:02.500 --> 02:08.680
yang cukup klasik di mana Anda punya beberapa blok blok lebar adalah blok di mana agen dapat melangkah ke

02:08.680 --> 02:13.800
blok abu-abu adalah salah satu yang tidak bisa diakses mengatakan seperti dinding di labirin ini.

02:13.900 --> 02:20.150
Hijau adalah tempat agen harus bertujuan untuk berakhir di situlah kami ingin agen untuk pergi yang

02:20.150 --> 02:20.910
selesai.

02:21.220 --> 02:25.050
Dan merah adalah api atau mesin jatuh ke lubang api.

02:25.060 --> 02:26.660
Dia akan kalah.

02:26.950 --> 02:31.330
Jadi di lubang api hadiah yang R adalah minus 1.

02:31.330 --> 02:36.330
Jadi itu cara kami memberi tahu agen itu bukan sesuatu yang kami ingin Anda lakukan.

02:36.430 --> 02:41.320
Seperti ingat dalam contoh ketika kita melatih anjing, kita ingin memberi tahu mereka seperti anjing jahat jika tidak melakukan

02:41.320 --> 02:46.030
hal yang benar yang ingin melakukan hal yang sama di sini kita memberitahu agen bahwa ini bukan sesuatu

02:46.030 --> 02:49.480
yang seharusnya melakukan Anda tidak harus berakhir di alun-alun sehingga setiap kali

02:49.480 --> 02:53.300
tidak terjadi tupai mendapatkan hadiah minus satu sehingga Anda akan dihukum dengan hadiah minus satu.

02:53.530 --> 02:57.610
Di sisi lain, jika berakhir di Lapangan Hijau, ia akan mendapat hadiah plus satu yang berarti

02:57.610 --> 02:59.330
bahwa itulah yang ingin kami lakukan.

02:59.590 --> 03:02.470
Jadi itu adalah dua hadiah yang tidak bisa didapatkan agen.

03:02.470 --> 03:06.210
Dan bagaimana cara mempelajari cara beroperasi di labirin ini.

03:06.370 --> 03:10.750
Sama seperti pada contoh anjing robot yang belajar berjalan yang akan membuatnya tahu itu hanya akan mengatakan bahwa

03:10.750 --> 03:12.490
di sini tindakan yang dapat Anda lakukan.

03:12.490 --> 03:18.360
Anda bisa naik ke kanan atau ke bawah, itu adalah empat tindakan yang dapat Anda lakukan dan hanya itu.

03:18.360 --> 03:21.430
Telah bermain-main dengan yang melihat apa yang dapat Anda buat.

03:21.430 --> 03:26.320
Jadi agen mungkin pergi ke kanan lalu mereka mungkin pergi dua lagi ke kanan mereka mungkin kembali ke kiri

03:26.320 --> 03:31.160
hanya secara acak menekan tombol dan mereka mencoba untuk melihat apa yang terjadi dan mereka kembali ke sini.

03:31.180 --> 03:34.660
Mereka naik ke atas, ke bawah, ke atas, ke kanan.

03:34.660 --> 03:38.450
Jadi untuk saat ini mereka belum belajar apa-apa, sejauh ini tidak ada yang terjadi.

03:38.470 --> 03:41.790
Mereka berbelok ke kanan dan kemudian tiba di Green Square.

03:41.830 --> 03:48.150
Jadi mereka menyadari wow saya baru saja mendapat satu plus plus. Begitu saya melangkah ke Green Square, mereka mendapat hadiah

03:48.150 --> 03:49.040
plus satu.

03:49.090 --> 03:53.560
Dan itu memicu algoritma untuk mengatakan OK itu sangat keren.

03:53.830 --> 03:58.920
Saya dihargai karena berakhir di alun-alun jadi saya ingin berakhir di alun-alun.

03:58.930 --> 04:00.650
Jadi apa artinya itu bagi agen.

04:00.910 --> 04:04.310
Itu berarti ia mulai mengajukan pertanyaan bagaimana saya sampai ke alun-alun ini.

04:04.300 --> 04:10.690
Bagaimana keadaan saya sebelumnya dan tindakan apa yang saya ambil untuk menyelesaikan dan kemudian melihat ke

04:10.690 --> 04:14.810
belakang dan berkata OK jadi keadaan sebelumnya adalah yang ini.

04:14.950 --> 04:17.400
Ternyata itu berharga di kondisi itu.

04:17.410 --> 04:19.240
Yang memicu Red Arrow.

04:19.270 --> 04:26.230
Karena dari keadaan itu kau adalah aku, aku hanya selangkah lagi dari mendapatkan hadiah maksimum yang mungkin bisa

04:26.230 --> 04:33.210
kuimpikan plus satu seperti biskuit untuk seekor anjing segera setelah aku tahu apakah aku pernah berada dalam keadaan itu.

04:33.250 --> 04:35.150
Kotak itu ditandai dengan Red Arrow.

04:35.200 --> 04:36.740
Yang harus saya lakukan adalah menekan kanan.

04:37.030 --> 04:41.440
Jadi bagaimana saya mengatakan pada diri sendiri untuk mengingat bahwa keadaan itu berharga.

04:41.440 --> 04:45.170
Bagi saya tidak ada perbedaan sebenarnya sebagai agen.

04:45.170 --> 04:50.380
Tidak ada perbedaan apakah saya di Lapangan Hijau atau di lapangan putih tepat di Lapangan Hijau saya

04:50.380 --> 04:51.610
mendapatkan hadiah satu.

04:51.610 --> 04:58.810
Jadi saya akan menandai untuk diri saya sendiri bahwa Y Square didapat untuk saya, ia memiliki nilai 1 karena itu mengarah tepat untuk hadiah satu

04:58.810 --> 05:03.280
segera setelah saya di alun-alun putih, saya tahu saya hanya akan mengambil satu tindakan lagi.

05:03.350 --> 05:08.180
Saya akan berada di Green Square dan saya akan mendapatkan hadiah atau satu jadi itu sebabnya saya akan mengatakan

05:08.180 --> 05:14.690
bahwa nilai dari kotak ini sama dengan satu karena itu mengarah langsung ke jika ada pengurangan apa pun segera setelah Maksud saya di sini saya

05:14.690 --> 05:18.890
tahu hadiah saya akan menjadi satu jadi saya akan menandai kotak ini sebagai panggilan ke salah

05:18.890 --> 05:22.430
satu yang merupakan nilai yang dirasakan sebagai nilai berada di negara bagian.

05:22.430 --> 05:24.740
Selanjutnya agen akan baik-baik saja.

05:24.800 --> 05:26.930
Jadi bagaimana cara saya masuk ke alun-alun ini.

05:27.050 --> 05:29.990
Dan Anda tahu dia mungkin akan berjalan lagi dan seterusnya.

05:29.990 --> 05:33.800
Dan naik di alun-alun lagi dan menjadi seperti OK bagaimana saya bisa masuk ke alun-alun ini sebelum itu.

05:33.800 --> 05:36.860
Dan cara saya masuk ke kotak ini adalah dari kotak ini.

05:36.860 --> 05:37.530
Menarik.

05:37.550 --> 05:42.980
OK jadi segera setelah saya masuk ke alun-alun ini saya tahu bahwa yang harus saya lakukan adalah pergi dengan benar.

05:42.980 --> 05:45.640
Dan kemudian dari sini saya sudah tahu bahwa saya akan menang.

05:45.650 --> 05:49.970
Saya tahu persis bagaimana semuanya akan terurai dari sini dan saya tahu nilai berada di negara ini

05:49.970 --> 05:50.970
sama dengan satu.

05:51.020 --> 05:58.340
Dan karena tidak ada yang menghentikan saya untuk tumbuh dari sini ke sini, nilai dalam hal ini adalah nilai yang dirasakan.

05:58.340 --> 06:03.920
Saya sangat berharga berada di sini sebagai kendaraan yang diinginkan juga karena inilah yang saya maksud

06:03.920 --> 06:04.640
di sini.

06:04.650 --> 06:06.660
Berada di sini dan saya akan berada di sini dengan cepat.

06:06.740 --> 06:07.980
Jadi saya akan menang.

06:08.180 --> 06:10.490
Lalu bagaimana Anda masuk ke alun-alun ini sebelum itu.

06:10.490 --> 06:12.940
Yah saya masuk ke alun-alun ini dari alun-alun ini.

06:13.070 --> 06:19.670
Jadi nilainya mendekati pendekatan nilai yang berada di sini juga sama dengan satu dan seterusnya sehingga nilai berada di sini sama dengan satu

06:19.670 --> 06:23.690
nilai berada di sini sama dengan satu karena masing-masing dari mereka mengarah ke yang

06:23.690 --> 06:25.710
berikutnya dan ini untuk garis finish.

06:26.240 --> 06:29.850
Jadi itu semua cukup logis pada tahap ini.

06:29.960 --> 06:33.410
Ini kita cukup banyak merancang persamaan Belman sekarang.

06:33.410 --> 06:40.460
Jadi ini adalah kita mungkin bisa berpikir tentang merancang persamaan yang membantu agen melewati labirin.

06:40.490 --> 06:45.840
Jadi lihat hadiahnya maka negara sebelumnya memberikan nilai yang sama dengan hadiahnya dan jadi

06:45.840 --> 06:51.920
itu seperti membuat jalur semua bagus dan bagus tapi masalahnya di sini OK apa yang terjadi

06:52.010 --> 06:58.790
jika agen kami untuk beberapa alasan mulai negara ini bukannya memulai di sini dan mengambil tindakan ini dan itu

06:58.880 --> 07:00.480
sebenarnya dimulai di negara.

07:00.650 --> 07:06.980
Bagaimana ia tahu bagaimana ia mengingat tindakan mana yang harus diambil jika ia pergi ke kanan atau turun atau mungkin ke

07:06.980 --> 07:08.540
kiri atau harus naik.

07:08.540 --> 07:13.220
Bagaimana ia ingat yang merupakan kelanjutan berikutnya dari sini.

07:13.220 --> 07:18.660
Jika satu-satunya nilai yang dimilikinya adalah nilai-nilai ini sama dengan begitu jenisnya tidak dapat melihat apa yang lebih jauh.

07:18.660 --> 07:19.700
Itu hanya bisa melihat.

07:19.700 --> 07:20.030
Baiklah.

07:20.030 --> 07:21.940
Apa yang saya miliki di sini dan apa yang saya miliki di sini.

07:21.980 --> 07:23.530
Bagaimana ia tahu ke mana harus pergi.

07:23.660 --> 07:27.920
Nah pada tahap ini tidak sama identik untuk usia dan ke mana harus pergi.

07:27.960 --> 07:30.770
Dan itulah mengapa pendekatan ini tidak benar-benar berhasil.

07:30.790 --> 07:32.930
Itu penjelasan yang sangat sederhana.

07:32.930 --> 07:34.500
Tentu saja ada lebih dari itu.

07:34.520 --> 07:40.550
Tetapi dengan cara yang intuitif itu sebabnya kami tidak bisa hanya menetapkan hanya meneruskan nilai ini mundur seperti itu.

07:40.790 --> 07:46.210
Karena salah satu alasannya adalah sekali Agen berada di antara dua nilai ini ke mana akan pergi.

07:46.210 --> 07:48.560
Itu tidak bisa membingungkan seperti itu.

07:48.620 --> 07:52.350
Jadi bagaimana kita memecahkan masalah ini apa yang akan kita lakukan.

07:52.400 --> 07:57.860
Dan di sinilah kita akan mulai memperkenalkan persamaan Belman dalam bentuk aktualnya secara perlahan langkah

07:57.860 --> 07:58.640
demi langkah.

07:58.670 --> 08:01.510
Jadi persamaan Belman terlihat seperti ini.

08:01.640 --> 08:07.100
Jadi kita sudah bicara tentang nilai berada dalam keadaan tertentu seperti keadaan Anda saat

08:07.100 --> 08:10.250
ini atau keadaan apa pun dan ada juga.

08:10.370 --> 08:17.270
Dan sebagai Perdana adalah negara bagian berikut negara bagian di mana Anda akan berakhir setelah negara bagian dan

08:17.270 --> 08:18.990
dengan mengambil tindakan bersama.

08:19.000 --> 08:24.160
Tetapi kita tahu bahwa ada banyak tindakan dan agen dapat mengambil dan itu sebabnya kita punya Max ini di sini.

08:24.260 --> 08:30.020
Jadi dengan mengambil tindakan apa yang akan terjadi pada agen, jadi katakanlah kita dalam keadaan seperti dengan mengambil

08:30.050 --> 08:32.700
tindakan dalam aset negara dan kita mengambil tindakan.

08:32.780 --> 08:36.690
Apa yang akan terjadi adalah akan langsung mendapat hadiah dengan masuk ke negara baru.

08:36.770 --> 08:41.960
Dan ingat bahwa hadiah bisa menjadi satu atau plus satu atau minus satu jika itu di akhir permainan atau bisa

08:41.960 --> 08:46.240
menjadi nol jika itu sepanjang permainan dalam hal ini hadiah kami sepanjang permainan adalah nol.

08:46.280 --> 08:55.160
Jadi itu hadiah Plus kita akan masuk ke negara baru yang memiliki nilai s prima.

08:55.160 --> 08:57.820
Jadi itulah nilai negara baru dan gamma.

08:57.820 --> 08:58.820
Kami akan membicarakannya sebentar lagi.

08:58.820 --> 09:03.560
Tetapi poin yang saya coba sampaikan di sini atau poin yang saya bahas di sini adalah bahwa Anda memiliki banyak tindakan berbeda yang

09:03.560 --> 09:05.810
dapat kami ambil dan itulah mengapa kami mendapatkan hasil maksimal.

09:05.810 --> 09:09.630
Jadi dengan mengambil tindakan kita mendapat hadiah Plus kita berakhir di negara baru.

09:09.740 --> 09:14.660
Jadi untuk setiap langkah keluar dari dalam kasus kami sebelum tindakan kami yang mungkin untuk setiap

09:14.660 --> 09:17.810
tindakan yang mungkin kami akan memiliki persamaan seperti ini

09:17.810 --> 09:22.980
Jadi ini akan memiliki nilai karena mereka akan memiliki nilai yang berbeda untuk setiap satu

09:23.480 --> 09:28.750
dari empat tindakan dan kita akan melihat hanya maksimum karena tentu saja agen ingin mengambil keadaan optimal.

09:28.760 --> 09:33.860
Jadi jika dia dalam keadaan s dia akan melihat nilai-nilai ini dia akan menemukan maksimum berdasarkan

09:33.860 --> 09:37.500
tindakan dan akan mengambil tindakan yang membutuhkan maksimum dari nilai-nilai ini.

09:37.640 --> 09:41.480
Jadi semoga masuk akal mengapa kami mengambil yang maksimal di sini.

09:41.660 --> 09:45.400
Kemudian begitu kita mendapat hadiah dan nilai yang mengatakan mengapa kita memiliki parameter Gabaa di sini.

09:45.650 --> 09:52.220
Yah itu ada di sana untuk menyelesaikan masalah di mana agen tidak tahu ke mana harus pergi karena tidak

09:52.220 --> 09:52.850
bisa.

09:52.950 --> 09:56.600
Ini membandingkan nilai dua negara di kedua sisi dan mereka sama.

09:56.810 --> 10:00.890
Itu sebabnya para penjudi menyebut faktor diskon sehingga kita akan melihatnya

10:00.890 --> 10:02.050
dan lebih memahami.

10:02.060 --> 10:04.680
Jadi mari kita ambil formula saya akan meletakkannya di sini di kanan atas.

10:04.760 --> 10:09.100
Dan sekarang kita akan menganalisis apa nilai dari berbagai negara.

10:09.140 --> 10:11.470
Dan setiap negara bagian di sini adalah bujur sangkar.

10:11.470 --> 10:11.820
Tidak.

10:11.840 --> 10:16.610
Jadi salah satu dari ini salah satu dari kotak putih ini adalah keadaan yang saya maksudkan kita akan

10:16.610 --> 10:18.290
menghitung nilai berada di negara itu.

10:18.290 --> 10:19.770
Jadi mari kita mulai dengan kotak.

10:19.790 --> 10:21.610
Apa nilai berada di negara ini.

10:21.860 --> 10:25.830
Kita perlu mengambil nilai maksimum ini di semua tindakan.

10:26.120 --> 10:31.440
Dan kita tahu bahwa nilai ini mewakili dimaksimalkan ketika kita semakin dekat ke garis finish dan

10:31.440 --> 10:36.440
itulah cara itu dibangun dan hanya dengan melihat Anda dapat melihat karena inilah yang mendapat

10:36.590 --> 10:40.900
hadiah dan di sini ada faktor diskon dikalikan dengan nilai berikutnya negara.

10:41.060 --> 10:46.670
Dan masuk akal bahwa itulah cara kita membangun persamaan itu sehingga masuk akal bahwa dari sini

10:46.670 --> 10:50.350
maksimum nilai ini adalah jika kita bergerak ke kanan.

10:50.360 --> 10:56.120
Jadi begitulah kita menghitung nilai-nilai yang nilai dari negara ini disebut maksimum atau sama dengan

10:56.300 --> 10:57.470
nilai ini.

10:57.500 --> 11:01.000
Jika kita bergerak ke kanan jika kita mengambil tindakan untuk bergerak ke kanan.

11:01.010 --> 11:02.330
Jadi, apa nilai ini nantinya.

11:02.360 --> 11:04.850
Baik hadiah pindah ke kanan sama dengan 1.

11:05.090 --> 11:10.490
Dan terlepas dari apa warna gamma kita tidak memiliki nilai di negara karena kita sudah

11:10.490 --> 11:11.720
dalam kondisi terbaik.

11:11.720 --> 11:12.880
Jadi ini adalah tahap terakhir.

11:12.890 --> 11:16.280
Itu tidak akan memiliki nilai, kami hanya mendapatkan hadiah di sini dan itulah akhir dari permainan.

11:16.280 --> 11:20.300
Jadi nilainya akan sebesar ini akan sama dengan 1.

11:20.510 --> 11:23.870
Dan itu sebabnya nilai negara seperti di sini sama dengan 1.

11:23.870 --> 11:27.970
Sekarang segalanya menjadi menarik ketika kita bergerak ke kiri ketika kita bergerak mundur sedikit.

11:28.010 --> 11:34.060
Jadi sekarang hitung nilai dari berada di negara ini dan untuk itu kita akan membutuhkan Gabaa.

11:34.070 --> 11:39.920
Jadi katakanlah faktor diskon kami adalah nol koma sembilan dan masuk akal apa faktor diskon setelah

11:39.920 --> 11:40.960
kami menghitungnya.

11:40.960 --> 11:47.410
Jadi dari sini hanya berdasarkan intuisi kita dan berdasarkan karena kita tahu bagaimana ini bekerja bagaimana ini bekerja.

11:47.450 --> 11:51.340
Kita tahu bahwa tindakan terbaik yang mungkin adalah pergi ke kanan karena dari sini kita pergi ke sini.

11:51.530 --> 11:56.120
Jadi itu berarti maksimum akan dicapai dalam keadaan ini Anda pergi ke kanan.

11:56.270 --> 11:58.970
Jadi mari kita lihat apa yang terjadi jika kita pasang di sini.

11:58.970 --> 12:02.650
Jadi, jika Anda pergi dari sini ke sini, Anda tidak akan mendapatkan hadiah Anda akan menjadi nol.

12:02.720 --> 12:07.440
Tapi kemudian Anda akan mendapatkan camis yang mendapat nol koma sembilan kali nilai negara baru yang satu.

12:07.640 --> 12:14.030
Jadi dalam hal ini nilai seluruh hasil ini adalah 1 kali 0. 9 kali satu sama dengan 2. 9.

12:14.030 --> 12:15.890
Jadi itu semua nilai per.

12:16.250 --> 12:18.570
Jadi jika kita menghitung ini sekarang Anda akan melihatnya dari sini.

12:18.620 --> 12:23.990
Kita tahu hanya dengan melihat labirin yang kita tahu karena kita sebagai manusia karena kita memahami

12:23.990 --> 12:28.450
bagaimana persamaan ini bekerja tentu saja agen AI harus bereksperimen dengan hal-hal ini.

12:28.460 --> 12:32.180
Tetapi karena kita memiliki seperti bola kristal, kita dapat melihat seluruh labirin ini.

12:32.180 --> 12:33.860
Kami menyukai pandangan mata burung itu sekarang.

12:33.860 --> 12:36.170
Kita tahu bahwa tindakan terbaik adalah pergi ke kanan.

12:36.320 --> 12:42.230
Jadi jika kita tancapkan semuanya di sini maka tidak akan ada hadiah plus laporan sembilan kali lipat

12:42.230 --> 12:45.530
nilai di negara 0. 9 adalah nol koma delapan puluh satu dan seterusnya.

12:45.530 --> 12:50.420
Jadi di sini akan menjadi 0. 23 dan dia akan menjadi 0. 66.

12:50.420 --> 12:57.590
Jadi Anda dapat melihat bahwa cara faktor diskon bekerja adalah diskon nilai negara saat Anda

12:57.590 --> 12:58.610
semakin jauh.

12:58.610 --> 13:05.810
Jadi jika Anda terbiasa dengan teori keuangan maka itu adalah sesuatu yang mirip dengan nilai waktu uang seperti apa yang akan Anda pikirkan

13:05.810 --> 13:12.990
dengan cara ini Apa yang Anda inginkan untuk memiliki $ 5 hari ini atau $ 5 dalam 10 hari dari sekarang.

13:13.050 --> 13:17.840
Hanya jika seseorang memberi Anda pilihan, saya akan memberi Anda lima dolar hari ini semua Anda $ 5 10 hari dari

13:17.840 --> 13:18.280
semua.

13:18.390 --> 13:20.300
Tentu saja Anda akan memilih $ 5 hari ini.

13:20.300 --> 13:20.850
Mengapa demikian.

13:20.870 --> 13:26.750
Nah karena Anda dapat mengambil $ 5 dan Anda dapat menginvestasikannya pada tingkat bunga tertentu yang sangat mirip

13:26.750 --> 13:27.470
dengan gamma.

13:27.680 --> 13:33.950
Dan $ 5 Anda dalam 10 hari sebenarnya akan tumbuh menjadi mungkin 5 dolar dan 73 sen atau sesuatu seperti itu.

13:34.070 --> 13:36.410
Dan begitulah nilai waktu dari uang bekerja.

13:36.410 --> 13:38.310
Dan konsep yang sangat mirip di sini.

13:38.330 --> 13:43.250
Dan yang penting untuk dipahami di sini ini hanyalah sebuah teori cara yang menguatkan pembelajaran.

13:43.260 --> 13:45.850
Jadi Richard Belman menghasilkan persamaan ini.

13:46.190 --> 13:48.880
Dan sejak saat itulah kami menggunakannya.

13:48.880 --> 13:51.430
Jadi Anda bisa maju dan menghasilkan persamaan yang berbeda.

13:51.430 --> 13:54.820
Itu tidak harus memiliki Gamla, mungkin ada beberapa faktor lain, mungkin Anda tidak tahu memiliki faktor.

13:54.950 --> 14:01.550
Tetapi pendekatan ini bekerja dan itulah sebabnya kami menggunakan dan inilah yang terlihat sehingga semakin jauh Anda

14:01.550 --> 14:06.670
semakin kecil nilainya di negara bagian dan dalam hal waktu dan uang.

14:06.680 --> 14:09.850
Jika saya bisa mengatakan kepada Anda di mana Anda lebih suka berada, Anda lebih suka berada di sini.

14:09.950 --> 14:11.200
Apakah kamu lebih suka berada di sini.

14:11.350 --> 14:12.920
Anda akan mengatakan saya lebih suka berada di sini.

14:12.920 --> 14:18.770
Jadi kita menciptakan fenomena yang sama dengan nilai waktu uang kita secara artifisial menciptakannya

14:18.770 --> 14:24.680
melalui gamma sehingga untuk mendorong agen atau menginspirasi agen untuk lebih dekat ke garis finish.

14:24.680 --> 14:29.720
Jadi jika seorang agen ditanyai apakah Anda lebih suka berada di sini atau di sini karena cara persamaan ini bekerja, ia

14:29.930 --> 14:31.590
akan memilih untuk berada di sini.

14:31.640 --> 14:33.380
Tidak ada yang lebih dari itu, tidak kurang.

14:33.380 --> 14:35.810
Bukan sesuatu yang dunia lakukan dengan cara ini.

14:35.810 --> 14:42.630
Tidak, itu hanya sesuatu yang kita buat secara artifisial agar agen kita memahami

14:42.750 --> 14:48.140
bahwa ini bagus, bagus, bagus, bagus, tapi bagus telah di

14:48.140 --> 14:50.030
yang satu ini.

14:50.120 --> 14:54.790
Dan dengan begitu Anda bisa melihat semua agen bisa melihat ke arah mana harus pergi.

14:54.800 --> 15:00.270
Jadi dapat melihat bahwa jika saya berdiri di sini, ingat masalah yang kita miliki atau dia berdiri di sini jadi jika

15:00.270 --> 15:05.130
Anda berdiri di sini saya turun atau jika saya tiba-tiba di sini untuk naik atau apakah saya turun.

15:05.250 --> 15:10.080
Nah sekarang tidak ada masalah lagi karena dia bisa melihat bahwa sebenarnya lebih baik naik karena

15:10.080 --> 15:11.480
nilainya ada di sini.

15:11.550 --> 15:14.490
Dan kemudian dari sini dia harus benar karena nilainya lebih besar di sini daripada di sini.

15:14.550 --> 15:17.480
Dan kemudian dari sini adalah Bertschi ke kanan karena nilai di sini lebih besar dari yang Anda tahu.

15:17.670 --> 15:22.620
Dan dari sini dia sudah tahu bahwa dia harus benar karena dia akan mendapatkan hadiah satu di sini.

15:22.680 --> 15:24.960
Jadi begitulah keseluruhan pendekatan ini bekerja.

15:24.960 --> 15:27.600
Sekarang mari kita lihat sekilas alun-alun.

15:27.600 --> 15:29.800
Jadi bagaimana kita menghitung nilai dalam kotak ini.

15:30.030 --> 15:32.450
Nah di sinilah segalanya menjadi rumit.

15:32.460 --> 15:38.400
Jadi dari sini Anda mungkin tidak benar-benar ke kiri kanan Anda mungkin benar-benar pergi kanan sehingga kita bisa terus seperti itu

15:38.400 --> 15:41.360
karena mungkin sebenarnya lebih pendek untuk pergi dengan cara ini

15:41.520 --> 15:44.720
Jadi apa yang akan kita lakukan adalah kita akan menghitung nilainya terlebih dahulu.

15:45.000 --> 15:48.200
Dan karena jelas dari sini cara terbaik untuk pergi adalah naik.

15:48.240 --> 15:52.740
Sekali lagi itu karena kami melihat kru kami memiliki bola kristal, kami dapat melihat sesuatu dan Anda akan

15:52.740 --> 15:57.060
melihat lebih jauh di bagian ini Anda akan melihat bagaimana agen sebenarnya mengeksplorasi ini memahami ini pada suka

15:57.060 --> 15:58.030
mereka melalui eksperimen.

15:58.080 --> 16:02.580
Tetapi bagi kita, kita tahu bahwa lebih baik untuk pergi dengan cara ini sehingga kita akan menghitung nilai

16:02.580 --> 16:06.410
di sini dan itulah sebabnya kita akan menghitung nilai dalam kotak ini terlebih dahulu.

16:06.420 --> 16:09.230
Jadi di sini kita memiliki tiga kemungkinan tindakan.

16:09.270 --> 16:11.590
Pada kenyataannya kita memiliki empat, kita juga bisa ke kiri.

16:11.610 --> 16:15.330
Agen itu secara hipotetis dapat menekan ke kiri dan menabrak dinding dan tinggal di sini.

16:15.420 --> 16:21.030
Tetapi untuk set kesederhanaan yang akan menunjukkan tindakan yang kita tahu apa yang kita ketahui dan memiliki

16:21.030 --> 16:25.920
bola kristal kita tahu tindakan mana yang sebenarnya mengarah pada sesuatu selain dari keadaan yang

16:25.920 --> 16:26.780
sama lagi.

16:26.850 --> 16:32.010
Jadi di sini dari sini kita tahu lagi hanya karena kita memiliki bola kristal, kita tahu bahwa cara terbaik untuk pergi

16:32.010 --> 16:36.840
adalah dengan cara ini seorang agen tentu saja harus bereksperimen dan menemukan cara terbaik dan Anda akan melihat bagaimana

16:36.840 --> 16:37.500
itu terjadi.

16:37.560 --> 16:42.270
Lebih jauh ke bawah di bagian Anda akan melihat sebenarnya bagaimana agen berjalan dan bagaimana Anda akan bereksperimen

16:42.360 --> 16:43.610
mencoba menemukan nilai-nilai ini.

16:43.620 --> 16:45.190
Tapi bagi kami, kami tahu itu benar.

16:45.360 --> 16:50.420
Jadi di sini jika kita tancapkan semuanya dalam satu sehingga maksimum output terbaik adalah ketika Anda naik.

16:50.510 --> 16:53.820
Dan inilah laporan 9: 0 Jadi Anda memasukkannya ke dalam.

16:53.820 --> 16:55.870
Anda mendapatkan nol koma sembilan.

16:56.220 --> 16:58.730
OK jadi kalika yang menghitung ini.

16:58.770 --> 16:59.810
Pendekatan yang sama.

16:59.820 --> 17:02.070
Ini adalah Anda memiliki tiga cara Anda bisa pergi.

17:02.070 --> 17:05.580
Sebenarnya empat untuk agen tetapi bagi kita kita bisa melihat itu hanya tiga.

17:05.880 --> 17:10.780
Jadi nol koma delapan puluh satu dari sini Anda punya NOL koma tujuh puluh tiga.

17:11.130 --> 17:16.410
Dan itu benar-benar terkait baik dengan nilai ini karena di dalam kamu jika kamu diskon lagi kamu menempatkan 66 dan

17:16.890 --> 17:20.120
di sini kamu punya 0. 23 karena ini adalah rute yang optimal.

17:20.130 --> 17:21.190
Jadi begitulah.

17:21.210 --> 17:23.750
Itulah nilai-nilai semua kondisi ini.

17:23.760 --> 17:29.700
Dan sekarang Anda dapat melihat bahwa karena kami telah membuat persamaan ini atau kami telah membuat

17:29.730 --> 17:37.890
secara sintetik seluruh konsep ini dari semakin dekat Anda ke garis akhir, semakin berharga keadaan itu bukan karena kami takut bahwa

17:37.890 --> 17:41.840
sekarang cukup jelas untuk agen mana yang harus pergi.

17:41.970 --> 17:44.230
Dan kita akan berbicara lebih banyak tentang itu di masa mendatang.

17:44.910 --> 17:52.290
Saya harap Anda menikmati sesi hari ini dan saya tahu ini sedikit mungkin terdengar agak sangat mendasar pada tahap ini, tetapi saat

17:52.320 --> 17:56.590
kita melewati bagian ini kita akan menambahkan sedikit lebih rumit untuk itu

17:56.700 --> 18:01.500
Pada saat yang sama jika Anda tidak bisa menunggu jika Anda ingin melompat ke dalamnya maka ada kertas yang

18:01.500 --> 18:04.290
dapat Anda lihat dan itu adalah kertas asli oleh Richard Belman.

18:04.290 --> 18:08.130
Ini disebut teori pemrograman dinamis dari tahun 1954.

18:08.370 --> 18:10.200
Dan Anda dapat menemukannya di tautan ini.

18:10.320 --> 18:16.490
Dan di sana Anda pergi sehingga Anda dapat melompat langsung ke dalamnya dan membaca dari penulis persamaan Belman.

18:16.620 --> 18:20.860
Namun perlu diingat bahwa ini adalah kertas yang cukup matematis.

18:20.970 --> 18:22.820
Dan pada catatan itu saya akan mencari Anda berikutnya.

18:22.850 --> 18:24.590
Dan sampai saat itu nikmati AI.