WEBVTT

00:00.330 --> 00:02.170
Merhaba ve Statoil'e hoş geldiniz.

00:02.400 --> 00:06.270
Tamam, böylece sadece entropiyi hesapladık ve entropiler listesine ekledik.

00:06.270 --> 00:11.640
Şimdi şimdi yapacağımız şey, bir sonraki olasılık dağılımına göre rasgele

00:11.700 --> 00:13.190
bir eylem bırakmaktır.

00:13.200 --> 00:14.540
O halde bunu yapalım.

00:14.540 --> 00:15.780
Bir sonraki adım.

00:15.870 --> 00:19.910
Hala döngüdeyiz çünkü burada hala basamaklar üzerinde ilerliyoruz.

00:20.160 --> 00:22.550
Böylece eylemi nasıl oynayacağınızı şimdi biliyorsunuz.

00:22.590 --> 00:28.740
Önce eylem olarak adlandırılan eylem için bir değişken tanıtacağız ve daha

00:28.740 --> 00:37.350
sonra olasılık dağılımımızı alacağız ve olasılık dağılımından rastgele bir çizgi çekmek için çoklu sinirsel olmayan bir

00:37.350 --> 00:41.390
fonksiyonu kullanacağız ve sonra bu verileri ekliyoruz.

00:41.500 --> 00:48.550
Dolayısıyla, hareketin aslında yalnızca bir değerli bir tensör olacağını belirtmek önemlidir, ancak bunu basit

00:48.550 --> 00:51.010
bir değer olarak görmemeniz gerekir.

00:51.010 --> 00:57.050
Bunu, eylem için bu değeri içeren tek tek tensör lanet olarak görmelisiniz.

00:57.190 --> 01:02.970
Bunun nedeni, aynı for döngüsünde hala sıkıştırılmamış olmasıdır.

01:02.970 --> 01:09.880
Oynadığımız eylemle ilişkili günlük olasılığını elde edeceğiz.

01:10.170 --> 01:16.750
Ve burada şansımı değerlendirdiğimde şansım olasılığını burada önceki şansımızı alarak hesapladık

01:16.810 --> 01:25.480
ve burada hesapladım ve daha sonra girdi 1'e gideceğim diğer yöntemi kullanacağım ve sadece

01:25.480 --> 01:31.510
çünkü bu eylemle ilişkili şans olasılığını elde etmek istiyoruz.

01:31.510 --> 01:38.230
Ve burada ikinci argüman eylemimi koyacağım, ancak toplanan işlevin gerektirdiği kadar korkunç bir

01:38.860 --> 01:44.530
işkence olmalı ve toplanan işlev sadece tensör tam sayı ile dizinleniyor.

01:44.530 --> 01:48.910
Pekâlâ, şimdi, gösterilen eylemle ilişkili görünüşümüz oldu.

01:49.030 --> 01:53.790
Ve şimdi bir sonraki adım, elimizdeki listeyi burada eklemektir.

01:53.800 --> 01:55.570
Yani değeri var.

01:55.750 --> 01:58.820
Modelin çıktısı olarak buraya geldik.

01:58.840 --> 02:00.880
Sonra da kilit problemi bulduk.

02:00.910 --> 02:04.030
Bu yüzden kilidini kilit sahne listesine ekleyeceğiz.

02:04.180 --> 02:09.610
Zaten entropiyi, daha az iyi olan entropiye eklemekteyiz ve ödüller daha sonra onu alacaktır.

02:09.700 --> 02:15.250
Dolayısıyla değer ve değer listesine ve hukuk sürecine bakmaya başlayacağız.

02:15.520 --> 02:16.180
Bunu yapalım.

02:16.180 --> 02:23.800
kullandığımızı ekledik ve modelden döndürülen değeri mükemmel ekledik. Daha sonra kilit probları

02:23.920 --> 02:32.700
için Aynı Yeni yeni sahne takımlarımızı aldık ve onu kilit sahne listesine ekleyeceğiz.

02:32.710 --> 02:36.080
Değerler listemizi alıyoruz, harcama işlevini

02:36.180 --> 02:43.960
Ve böylece bu ekleme işlevi şansımızdan bir günlük koyabilir, muhtemelen burada sadece hesaplanmıştır.

02:43.960 --> 02:47.320
Tamam, böylece listelerimiz şimdi güncellendi.

02:47.350 --> 02:53.060
Şimdi ne yapacağız eylemi oynamak çünkü aslında burada burada olasılık dağılımından

02:53.060 --> 02:56.570
rasgele bir çizgi alarak eylem seçtik.

02:56.650 --> 03:03.040
Fakat aslında henüz oynamadık ve şu an oynamaya devam edeceğiz, böylece yeni devrime ulaşabilir ve bu

03:03.220 --> 03:06.150
nedenle yeni bir geçiş kazanabilir ve oynayabiliriz.

03:06.170 --> 03:10.960
çevremizdeki eylemi oynuyoruz, o zaman adım yöntemini kullanacağız.

03:10.960 --> 03:12.990
Çevremizi alacağız, çünkü

03:13.210 --> 03:20.650
İçeride oynamak için seçilen eylemi belirtiyoruz ve bunu yapmak için eylemimizi gerçekleştiriyoruz ve

03:20.650 --> 03:25.280
işlevini yerine getiriyoruz, çünkü fonksiyonun bu olması bekleniyor.

03:25.750 --> 03:35.820
Tamam ama bu aslında yeni durumu ve aynı zamanda yeni ödülleri döndürür, çünkü yeni duruma ulaşarak yeni bir

03:36.000 --> 03:43.500
ödül alırız ve Dunn'ın oyunun bitip tamamlanmadığını öğrenmesi için yeni bir değer elde ederiz.

03:43.500 --> 03:49.180
Pekâlâ, bundan dolayı biz yeni bir devlete ulaştığımız eylemde oynamaktayız ve bir ödül kazanırız ve

03:49.200 --> 03:50.510
oyuyla işimiz bittiğini bileceğiz.

03:50.520 --> 03:52.740
Ve oyuyla yapılmaktan bahsediyorum.

03:52.990 --> 03:58.590
Eh, burada bir ajanın bazı durumda yığılmadığından emin olmanızı sağlayacak bir şey

03:58.590 --> 03:59.180
ekleyeceğiz.

03:59.280 --> 04:04.240
Ve bunu yapmak için, bunu aşağıdaki şekilde çok iyi bir şekilde güncelleyeceğiz.

04:04.860 --> 04:11.910
Yapılması eşit olacak, yoksa oyunun bölümünün çok fazla süreceğini söyleyen bir

04:11.910 --> 04:19.200
durum ekleyeceğiz ve ana işleve göre eşit olacak bir maksimum uzunluk

04:19.200 --> 04:21.960
parametresi olacağını göreceğiz. 10000'e.

04:22.170 --> 04:25.750
Ve bir bölümün 10000'den fazla birimi sürmesini istemiyoruz.

04:25.860 --> 04:34.200
daha büyük bir şart yazacağız, aslında bunu tam olarak söylemedik.

04:34.830 --> 04:43.250
Böylece bir bölümün uzunluğunu bölüm uzunluğunda duyacağız ve maksimum bölüm Lex'den

04:43.250 --> 04:49.210
Paramjit'ten Ramstad'a bitiş için parametrelerimizden alıyoruz.

04:49.210 --> 04:50.600
Max uzun.

04:50.600 --> 04:59.330
Dolayısıyla bu, oyun yapılırsa veya bölümün uzunluğu, 10000'e eşit olan en fazla atlama sayısı uzunluğundan

04:59.330 --> 05:02.110
daha büyük olduğu anlamına gelir.

05:02.270 --> 05:05.410
Peki oyun yapılacak ve yeni bir oyuna başlayacağız.

05:05.960 --> 05:08.040
Tamam, bu sadece bir önlem.

05:08.180 --> 05:14.360
söz edersek, ödülü eksi 1 ile artı 1 arasında kısaltmak için bir önlem daha ekleyeceğiz.

05:14.360 --> 05:15.400
Ve önlemden

05:15.470 --> 05:20.450
Zaten kazanmış olduk, ancak ödülün eksi 1 ile artı 1 arasında olmasını sağlamak

05:20.450 --> 05:20.960
istiyoruz.

05:21.140 --> 05:27.740
Bunu yapmak için, ödül adamlarını ödül ve 1 almak suretiyle maksimumu

05:28.240 --> 05:31.060
alarak bunu ödüllendirmemiz yeterlidir.

05:31.190 --> 05:37.790
Ve burada minimum ödülün maksimumunu ve 1 ve eksi 1'i alırız ve ödülün eksi

05:37.790 --> 05:40.040
bir artı arasında olmasını sağlarız.

05:40.160 --> 05:40.910
Tamam.

05:40.910 --> 05:42.180
Bu yüzden başka bir perküsyon.

05:42.380 --> 05:49.070
Ve şimdi biz sadece oyunun bittiğini kontrol etmek istiyoruz, bu durumda ortamı yeniden başlatacağız.

05:49.220 --> 05:53.010
Ve şimdi bunu kontrol etmeye neden gerek var, çünkü yeni bir duruma geçtik.

05:53.090 --> 05:54.880
Yeni bir geçişten yeni geçtik.

05:54.890 --> 05:58.010
Dolayısıyla, bu yeni geçişi geçtikten sonra bunu kontrol etmemiz gerekiyor.

05:58.130 --> 06:06.860
Peki oyun bitmedi, o zaman tekrar tekrar yapılırsa bu

06:07.250 --> 06:14.180
durumda, bölüm uzunluğunu sıfıra ayarlayarak ortamları yeniden başlatacağız.

06:14.330 --> 06:21.800
yeniden başlatması için yeniden başlatılacak ve sıfırlama işlevini OK kullanıyoruz.

06:21.800 --> 06:25.270
Ayrıca çevremizi alırken devletin

06:25.310 --> 06:29.040
Şimdi sadece kontrol eden bu durumdan kurtulduk.

06:29.230 --> 06:34.640
Ve şimdi yapacağımız şey, bu yeni devlet şu anda ve sonra Ray

06:34.640 --> 06:40.410
tarafından yeni bir hale geldiğimizden beri, devletlerin başlangıçta dizilerle adlandırılan girdi görüntülerini hatırlamak.

06:40.570 --> 06:44.430
Ve şimdi yapmamız gereken şey, yeni devleti işkenceye dönüştürmek.

06:44.600 --> 06:50.410
Durumumuzu güncelleyeceğiz ve meşale kütüphanesini kullanacağız.

06:50.630 --> 07:00.880
Ve elbette, Taylandlı olmayan bu işlevi, bu ödemeyenlerin giriş imgelerini bir meşale algılayıcısına dönüştürdüğü şeklinde

07:00.890 --> 07:01.800
değiştirdi.

07:02.150 --> 07:03.150
Mükemmel.

07:03.260 --> 07:08.620
Ve şimdi bu döngüden çıkmadan önce yapmamız gereken en son şey,

07:08.810 --> 07:13.030
adımlarımızdaki döngü budur Elbette ödülü İzleme Listesine harcamaktır.

07:13.040 --> 07:18.310
Güncellenecek en son şey, ödül hariç tüm listeyi burada güncelledik.

07:18.320 --> 07:24.830
Dolayısıyla şimdi bunu yapacağız, şimdi ödüllerimizi alıyoruz ve sadece mükemmel olan son

07:24.830 --> 07:28.110
kelimeyi eklemek için beynin işlevini kullanıyoruz.

07:28.220 --> 07:36.110
Ve for döngüsünden çıkmadan hemen önce son bir kontrol yapmamız gerekiyor, tamamlanırsa sona

07:37.340 --> 07:39.490
erme işlemini durdurmak istiyoruz.

07:39.530 --> 07:42.550
Ve bu yüzden sadece bir mola ekleyeceğiz.

07:42.560 --> 07:48.590
Bu yapıldığı takdirde araştırmayı durdurduğumuzdan ve paylaşılan modelin güncelleneceği bir

07:48.590 --> 07:56.930
sonraki adıma geçeceğiz ve şu an için ajan keşiflerini gerçekleştirdiğimizden şu an bittiğimiz anlamına

07:56.930 --> 07:57.980
geliyor.

07:58.190 --> 08:04.910
Paylaşılan modeli güncelleyecek ve bir sonraki ders kitabında bu konuyla ilgileneceğiz ve o zaman ben.
