WEBVTT

00:01.090 --> 00:04.270
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.290 --> 00:07.260
Hari ini kita berbicara tentang hukuman hidup.

00:07.600 --> 00:13.540
Baiklah jadi di sini kita memiliki semua persamaan Belman dan karena kita telah melalui kursus

00:13.540 --> 00:20.030
ini, kita perlahan-lahan membuat semakin dan semakin kompleks sejauh ini kita telah menambahkan probabilitas ini di sini.

00:20.200 --> 00:22.930
Dan kami juga telah menambahkan faktor diskon.

00:22.930 --> 00:28.440
Sekarang kita akan melihat lebih detail di sisi pertanyaan di mana kita mendapat hadiahnya sekarang.

00:28.480 --> 00:34.660
Ingat sebelumnya ketika kita berbicara tentang bagaimana pembelajaran penguatan bekerja, kita mengatakan bahwa kita memiliki

00:34.660 --> 00:41.290
agen dan melakukan tindakan di lingkungan dan dalam pertukaran atau sebagai akibatnya ia mendapatkan keadaan baru

00:41.320 --> 00:45.600
dan yang sekarang dalam dan hadiah untuk tindakan itu.

00:45.610 --> 00:52.210
Sejauh ini dalam contoh kita, kita hanya mendapatkan hadiah di bagian paling akhir baik jika kita sampai ke garis

00:52.210 --> 00:58.640
finish atau jika kita untuk agen berakhir di lubang api dia mendapat plus satu atau minus satu hadiah.

00:58.960 --> 01:05.770
Tapi itu adalah pendekatan yang sangat sederhana untuk pembelajaran penguatan dan dalam skenario yang lebih realistis Anda mungkin akan memiliki

01:05.800 --> 01:11.380
hadiah di sepanjang perjalanan, tidak hanya di akhir Anda mungkin memiliki hadiah di sepanjang perjalanan.

01:11.380 --> 01:20.680
Misalnya jika itu adalah AI yang bermain game dan jika misalnya itu seperti menembak seseorang dalam kehancuran, ia mungkin mendapatkan poin

01:20.680 --> 01:26.320
untuk membunuh musuh itu atau mungkin itu adalah permainan lain yang berbeda.

01:26.470 --> 01:32.260
Jika ia menyalip mobil lain atau sesuatu seperti itu hanya karena aturan mainnya bukan

01:32.260 --> 01:39.400
karena caranya menganalisis permainan, tetapi sebenarnya gim ini disusun sedemikian rupa sehingga memperkuat poin pemberiannya untuk melakukan

01:39.400 --> 01:43.230
tindakan tertentu bahkan sebelum gim tersebut dimulai. lebih.

01:43.540 --> 01:49.570
Jadi, Sinatras seperti itu sangat umum dan tidak hanya dalam permainan dan juga dalam kehidupan nyata dan itulah

01:49.570 --> 01:55.120
mengapa kita akan memperkenalkan sesuatu yang mirip ke dalam contoh kita versi yang disederhanakan dari itu

01:55.330 --> 02:01.180
tetapi tetap saja hadiah yang terus diberikan kepada agen sepanjang permainan bukan hanya di akhir dan cara

02:01.180 --> 02:04.450
kita akan melakukannya adalah dengan melihat ubin lainnya.

02:04.450 --> 02:10.060
Jadi saat ini kami hanya memiliki hadiah plus satu di ubin terakhir dan hadiah minus 1 di

02:10.060 --> 02:11.530
ubin akhir lainnya firepit.

02:11.800 --> 02:14.310
Tapi sekarang kita akan menambahkan hadiah di setiap saat.

02:14.430 --> 02:17.770
Kami akan menambahkan hadiah yang sangat kecil akan menjadi minus 0. 04

02:17.770 --> 02:23.440
Dan seperti yang Anda lihat itu negatif sehingga setiap kali agen bergerak dia akan mendapatkan hadiah negatif dan itulah yang

02:23.440 --> 02:28.300
disebut penalti hidup karena di mana pun dia pergi dia akan selalu mendapatkan hadiah negatif ini

02:28.450 --> 02:31.000
kecuali untuk ubin terakhir karena itulah akhir permainan.

02:31.300 --> 02:35.120
Sehingga Anda dapat melihat hadiah bahkan di ubin ini adalah kegilaan atau teka-teki.

02:35.170 --> 02:37.960
Tetapi itu tidak berarti bahwa dia mulai dengan hadiah itu.

02:37.960 --> 02:39.470
Dia hanya mendapat hadiah ini.

02:39.760 --> 02:44.860
Dan ini penting untuk diingat bahwa dia hanya mendapatkan hadiahnya ketika dia memasuki ubin jadi setiap kali dia berjanji akan melakukan sesuatu,

02:44.860 --> 02:51.110
dia pergi ke sini maka dia akan mendapatkan hadiah ini minus 0. 04 dan kemudian dia kembali ke gaya ini dia akan mendapatkan

02:51.130 --> 02:53.650
pikiran lain dan 0. 04 kata.

02:53.770 --> 03:00.370
Dan semakin lama dia berjalan semakin dia mengumpulkan hadiah negatifnya dan karena itu merupakan insentif baginya

03:00.370 --> 03:03.870
untuk menyelesaikan permainan lebih awal secepat mungkin.

03:03.890 --> 03:10.390
Dan sekarang mari kita lihat bagaimana kebijakan kami atau bagaimana kebijakan agen akan berubah tergantung pada

03:10.420 --> 03:14.150
nilai apa yang kami tetapkan untuk hadiah ini.

03:14.410 --> 03:18.730
Jadi di sini ada empat lingkungan dan di masing-masing kita akan mengeksplorasi yang berbeda.

03:18.770 --> 03:21.070
Kami tidak akan melakukan perhitungan.

03:21.130 --> 03:25.690
Kami hanya akan memproyeksikan hasilnya dan Anda akan melihat bahwa secara intuitif mereka masuk akal.

03:25.690 --> 03:31.820
Jadi di sini kita punya hadiah untuk tawaran langkah apa pun untuk memasuki keadaan apa pun.

03:32.050 --> 03:32.830
Sama dengan nol.

03:32.830 --> 03:36.890
Sama seperti apa yang telah kita lihat sebelumnya di sini hadiahnya akan menjadi 0 Mei. 0.

03:36.910 --> 03:43.150
Untuk apa yang baru saja kita lakukan tadi, Anda tahu hadiahnya akan minus 0 5 atau tingkat pemberian penalti akan menjadi milikku adalah tembakan

03:43.150 --> 03:47.690
terbuka sehingga jauh lebih tinggi Anda dapat melihatnya di sini lebih dari 10 kali lebih besar.

03:47.800 --> 03:50.170
Dan di sini adalah Penhall yang hidup itu akan menjadi minus dua.

03:50.170 --> 03:59.050
Jadi, bahkan lebih dari imbalan yang Anda dapatkan karena melompat atau bahkan lebih sedikit daripada imbalan yang Anda dapatkan dari agen karena

03:59.050 --> 04:00.700
berakhir di lubang api.

04:00.700 --> 04:07.660
Jadi mari kita lihat bagaimana tindakan atau kebijakan optimal untuk melewati lingkungan ini akan berubah tergantung

04:07.660 --> 04:09.160
pada hadiah ini.

04:09.170 --> 04:11.560
Jadi ini adalah kebijakan asli kami.

04:11.920 --> 04:18.280
Dan seperti yang Anda ingat, kami memiliki dua keputusan yang sangat menarik dan bahkan sedikit aneh oleh

04:18.280 --> 04:23.950
agen tetapi ini benar-benar masuk akal jika dia bisa hidup selama yang dia mau.

04:23.950 --> 04:29.530
Jika Anda bisa berkeliling selama dia mau tanpa dihukum karena tetap hidup sangat

04:29.530 --> 04:30.430
lama.

04:30.670 --> 04:37.630
Dia kenapa tidak mengapa dia tidak pergi ke sudut sini ke dinding dan terus melakukan itu sampai itu

04:37.870 --> 04:38.470
terjadi

04:38.470 --> 04:41.300
Kebetulan dia pergi dengan cara ini dan kemudian dia akan berjalan di sekitar.

04:41.500 --> 04:46.120
Dan hal yang sama di sini jauh lebih aman baginya untuk melompat ke tembok berharap salah satu dari

04:46.120 --> 04:51.970
ini akan muncul pada akhirnya dan kemudian dia akan pergi ke garis finish pula karena dengan memilih dua tindakan ini dia tidak mengambil

04:51.970 --> 04:53.680
risiko masuk ke lubang api .

04:53.690 --> 04:59.950
Sekarang mari kita lihat apa yang terjadi jika kita menambahkan hadiah, imbalan negatif karena hanya menjadi hidup karena membuat langkah.

05:00.270 --> 05:04.960
Pindah ke sini Anda dapat melihat bahwa keduanya secara instan berubah.

05:04.970 --> 05:07.940
Sekarang agen itu tidak mau melompat ke tembok.

05:07.940 --> 05:13.490
Dia lebih cenderung mengambil risiko ke firepit yang memiliki peluang 10 persen untuk melompat ke sini, tetapi dia akan

05:13.490 --> 05:19.400
maju karena setiap kali dia datang untuk menonton di sini jika dia akan melakukannya di sini juga setiap kali dia

05:19.850 --> 05:24.620
melompat ke sumur dia melakukan tindakan yang berakhir di negara bagian ini dengan peluang 80

05:24.620 --> 05:24.990
persen.

05:25.010 --> 05:31.180
Dan itu berarti peluang 80 persen Anda akan mendapatkan minus 0. 04 hadiah yang berarti bahwa banyak

05:31.190 --> 05:34.940
waktu dia akan mendapatkan ini mengumpulkan hadiah negatif ini

05:34.940 --> 05:41.600
Hal yang sama di sini jika dia melompat ke dinding menunggu saat itu ketika dia akan benar-benar

05:41.600 --> 05:42.780
dipindahkan ke kanan.

05:42.980 --> 05:49.340
Jika dia terus melakukan itu, dia akan mengakumulasikan hadiah negatif ini dan bahwa hasil dari itu

05:49.340 --> 05:55.670
jika Anda melakukan perhitungan, Anda akan melihat bahwa hasil dari nilai yang diharapkan dari

05:55.670 --> 06:02.840
pendekatan yang melompat ke dinding lebih buruk daripada mengambil risiko untuk maju. dan benar-benar berakhir di firepit.

06:02.840 --> 06:10.230
Jadi dia mengubah keputusannya di dua blok ini sebagai gantinya bergerak maju dan di sini bergerak ke kiri bahkan tahu

06:10.230 --> 06:15.320
ada risiko kebakaran firepit hanya karena sekarang semakin lama dia hidup semakin lama dia

06:15.320 --> 06:18.830
akan mengumpulkan hukuman hidup ini di lingkungan berikutnya.

06:18.830 --> 06:23.720
Sekarang kita meningkatkan Pouncey hidup ke jumlah yang lebih besar Meinzer koma lima dan mari kita lihat perubahan

06:23.720 --> 06:24.590
apa di sini.

06:24.860 --> 06:27.220
Jadi sekarang Anda bisa melihatnya dibandingkan dengan lingkungan ini.

06:27.260 --> 06:31.740
Satu-satunya hal yang berubah di sini adalah panah ini menunjuk ke kanan.

06:32.060 --> 06:38.360
Dan apa artinya itu adalah bahwa sekarang ini bukan lagi pilihan yang baik untuk agen atau sebenarnya juga tanda

06:38.360 --> 06:42.340
panah ini menunjuk ke kiri dan hidung nozzle menunjuk ke atas.

06:42.350 --> 06:48.740
Jadi sekarang bukan lagi ide yang baik bagi agen untuk berkeliling dari sini atau berkeliling sepanjang jalan karena jika dia salah

06:49.100 --> 06:53.330
sepanjang jalan ya dia aman atau ada kemungkinan lebih kecil tidak ada kesempatan untuk

06:53.340 --> 06:54.030
mendapatkan firepit.

06:54.320 --> 06:57.640
Tetapi pada saat yang sama atau ada sedikit peluang akan terjadi.

06:57.710 --> 07:03.140
Tetapi pada saat yang sama ia akan mengumpulkan cukup banyak hadiah negatif saat ia berjalan.

07:03.140 --> 07:05.540
Jadi hanya saja jalannya terlalu panjang.

07:05.540 --> 07:12.350
Sehingga memaksanya apakah dia ada di sini atau di sini untuk mengambil rute yang lebih pendek untuk sampai ke sini meskipun dia memiliki risiko

07:12.350 --> 07:17.330
yang jauh lebih tinggi untuk masuk ke firepit karena begitu dia berakhir di alun-alun ada peluang 10

07:17.330 --> 07:19.350
persen untuk sampai ke api. .

07:20.120 --> 07:21.760
Menurut perhitungannya.

07:21.800 --> 07:27.980
Hanya saja nilai yang diharapkan dari pendekatan ini lebih baik daripada nilai yang diharapkan untuk berkeliling hanya karena

07:27.980 --> 07:30.480
kita telah meningkatkan hukuman hidup ini.

07:30.710 --> 07:37.130
Dan akhirnya kita sampai pada contoh dengan hukuman hidup minus dua koma nol.

07:37.130 --> 07:43.010
Jadi di sini saya mendorong Anda untuk memposting video sekarang setelah Anda melihat bagaimana kebijakan telah berubah saat kami

07:43.010 --> 07:44.430
meningkatkan hukuman punt loading.

07:44.450 --> 07:49.850
Saya mendorong Anda untuk menghentikan video dan berpikir sendiri apa yang akan terjadi dalam skenario ini.

07:49.850 --> 07:57.070
Menurut Anda apa kebijakan optimal akan diberikan bahwa hukuman hidup begitu tinggi sehingga semua ini seharusnya video jika

07:57.090 --> 07:58.280
Anda mau.

07:58.490 --> 08:04.880
Dan sekarang saya akan langsung menunjukkan solusi kepada Anda sehingga dalam hal ini jika

08:04.880 --> 08:13.460
Anda meningkatkan penalti menjadi minus 2. 0 begitu tinggi, ingat bahwa penalti di sini hanya minus 1. Begitu tinggi sehingga agen hanya ingin keluar dari

08:13.680 --> 08:18.540
permainan dengan cara apa pun yang mungkin bahkan jika itu hanya dengan melompat ke lubang api.

08:18.560 --> 08:19.200
Dia akan melakukannya.

08:19.220 --> 08:25.460
Dia akan seperti setiap kali saya membuat langkah setiap kali saya berakhir di baru di negara Anda

08:25.460 --> 08:30.020
atau setiap kali saya melakukan tindakan saya akhirnya mendapatkan hadiah minus dua.

08:30.020 --> 08:36.280
Jadi apa gunanya mencoba sampai ke garis finish jika dari sini akan membawa saya dua langkah ekstra.

08:36.350 --> 08:41.060
Saya hanya akan pergi ke sini dan kemudian langsung ke firepit

08:41.060 --> 08:49.190
karena dengan cara itu hadiah saya akan menjadi kurang dari hadiah negatif akan menjadi seburuk dalam hal hanya membuat

08:49.190 --> 08:56.770
langkah-langkah tambahan sehingga Anda dapat melihat bahwa menambahkan hidup ini hadiah dan tergantung pada nilai hadiah hidup yang

08:56.780 --> 08:59.270
kami tambahkan hasilnya akan berbeda.

08:59.270 --> 09:06.290
Dan agen akan memilih kebijakan yang berbeda dan pada dasarnya itulah bagaimana nilai hadiah dapat dimasukkan oleh persamaan

09:06.440 --> 09:12.020
Belmont bahkan ketika itu tidak hanya di garis finish atau di akhir permainan tetapi

09:12.020 --> 09:13.790
bahkan di sepanjang permainan.

09:13.790 --> 09:19.250
Dan lagi, sekali lagi tidak harus pada setiap orang di setiap negara tergantung pada lingkungan

09:19.250 --> 09:20.180
itu sendiri.

09:20.180 --> 09:26.540
Mungkin diberikan kepada agen di negara bagian tertentu tidak di setiap negara tetapi dalam contoh sederhana kami,

09:26.540 --> 09:29.880
kami hanya menggunakan hadiah di setiap negara bagian.

09:30.050 --> 09:34.470
Untuk menggambarkan konsep ini, saya harap Anda menikmati tutorial hari ini.

09:34.580 --> 09:40.550
Dan seperti yang Anda lihat, kami telah membuat persamaan Belman kami cukup canggih dan sekarang dapat diterapkan ke banyak

09:40.550 --> 09:44.340
skenario yang berbeda dan saya tidak sabar untuk melihatnya di tutorial berikutnya.

09:44.360 --> 09:46.200
Dan sampai saat itu menikmati aku.