WEBVTT

00:00.560 --> 00:02.560
Merhaba ve bu öğreticiye hoş geldiniz.

00:02.750 --> 00:04.610
Şimdi yarın beynimiz var.

00:04.610 --> 00:06.350
Eniyileştiricimiz de var.

00:06.350 --> 00:09.980
Yani temelde farklı ajanlarımızı eğitmeye hazırız.

00:10.010 --> 00:11.620
İşte bizim farklı beyinlerimiz.

00:11.720 --> 00:18.650
Bundan böyle bu A3 algoritmasını içerecek olan bu büyük tren fonksiyonunu yapacak ve bu nedenle bulduğum

00:18.650 --> 00:24.920
bu trende uygulamak üzere olduğumuz şey sadece bu büyük tren fonksiyonunun sadece bu büyük

00:25.230 --> 00:31.200
tren işlevi olacak başka bir şey olmayacak olması. Bu tren fonksiyonunu kim kullanacak.

00:31.250 --> 00:33.880
Ve ana kod ile bu modülün son adımı.

00:34.100 --> 00:35.010
İşte gidiyoruz.

00:35.060 --> 00:37.340
Ancak başlamadan önce bunu fark edebilirsiniz.

00:37.490 --> 00:42.020
İlk önce bazı kitaplıkları içe aktarırız, böylece meşale modülü bulunan klasik kitaplıklar olur.

00:42.020 --> 00:49.040
Yani meşale kütüphaneniz kütüphaneyi bitirecek ortamı yaratmaya başlar.

00:49.220 --> 00:54.470
Sonra elbette ithalat yapacağız aslında modelimizden bir sınıftır.

00:54.620 --> 00:55.980
Bunu dosyalayın.

00:56.420 --> 01:00.070
Sonunda TORCIDA'dan bir değişken kullanacağız.

01:00.150 --> 01:04.000
Degradedeki yüksek performanslı yarışmalara pişman olmaya pişmanım.

01:04.100 --> 01:05.750
Dinamik grafikler sayesinde.

01:05.990 --> 01:11.960
Ve sonra paylaştığımız grad'ın işlevini bu noktada çok fazla zaman harcamak istemediğimden emin olmasını sağlıyoruz, çünkü

01:11.960 --> 01:16.930
bu ilk önce bu her şeyin doğru çalıştığından emin olmasını sağlayacak bir işlevdir.

01:17.030 --> 01:20.400
Temsilci tarafından kullanılan modelin hisse eğimi yoksa.

01:20.480 --> 01:25.640
Bu yüzden kısa paylaşılan lisans mezunları adı verilir ve diğer sebep ise bu fonksiyonun

01:25.640 --> 01:26.530
gerekli olduğunu düşünmemem.

01:26.630 --> 01:32.700
azından bununla birlikte, kodun düzgün şekilde yürütüleceğinden yüzde yüz emin olabilirsiniz, ancak bu gerçekten önemli değildir.

01:33.080 --> 01:34.790
Ancak asla bilemeyiz ve en

01:34.880 --> 01:40.640
Dikkat etmemiz gereken şey şu anda hepimizin başlaması gereken eğilim fonksiyonudur.

01:41.000 --> 01:41.600
İşte başlıyoruz.

01:41.610 --> 01:48.860
Savunma ve tren yakında bir tren olacak ve bu dönüşüm birkaç argüman alacaktır.

01:49.010 --> 01:50.400
İlki rütbe.

01:50.420 --> 01:56.460
Bunun ne olduğunu açıklayacağım ve ikincisi haram olan saniye, böylece tüm

01:56.460 --> 01:57.840
parametreler çevreye açıklanacak.

01:57.920 --> 02:02.860
Ardından üçüncü parametrenin ahlaki değerleri paylaşılacak.

02:03.170 --> 02:09.260
Böylece, paylaşılan model, aracının az sayıda araştırmayı belirli sayıda adımda çalıştırması

02:09.260 --> 02:17.050
için alacağı ve son olarak da son bağımsız değişkenin daha önce yaptığımız iyileştirici olacağını biliyorsunuzdur.

02:17.770 --> 02:20.040
Bu kadar mükemmel, tartışmalar için hazır.

02:20.090 --> 02:24.010
Şimdi de aynı işlevi uygulamaya hazırız.

02:24.170 --> 02:30.890
Yapacağımız ilk şey, senkron aktif Crilley ajanları için A-380'un ne anlama

02:31.010 --> 02:32.480
geldiğini hatırladığının farkındasın.

02:32.540 --> 02:34.980
8: 3'de senkronize bir şey olduğunu görüyoruz.

02:34.980 --> 02:40.940
burada bu sıralama parametresi, her eğitim aracısı senkronize olacak şekilde tohumun kaydırılması için.

02:40.940 --> 02:49.010
Anladığınız gibi, her bir eğitim aracısını ve ekonomik olmayan birimlerini devreden çıkarmak zorundayız, o zaman bu sıralamada her

02:49.220 --> 02:52.230
bir tarafı kaydırmak için rütbeyi kullanacağız, böylece

02:52.580 --> 02:59.390
Örneğin, herhangi bir eğitim aracı varsa, sıralar 1'den 10'a gidecek ve 1'den 10'a kadar

02:59.390 --> 03:02.600
bir aracı başına bir tamsayı olacak.

03:02.630 --> 03:08.840
Dolayısıyla tohumları tek bir iplikle kaydırdığımızda, bu iplik tarafından oluşturulan tüm sahte rastgele sayılar

03:08.840 --> 03:11.340
diğer ipliklerden tamamen bağımsız olacaktır.

03:11.480 --> 03:14.250
Ancak tohum veya sabit sayılar.

03:14.510 --> 03:19.640
Dolayısıyla, deneyimi çoğalttığımızda tam olarak aynı olayları bulacağız.

03:19.880 --> 03:23.450
Ve koltuk açısından determinizm olduğu için.

03:23.690 --> 03:30.470
Bu yüzden anlamak önemlidir ve bu yüzden yapmamız gereken şey, tohumun rütbe ile kaydırılması için

03:30.800 --> 03:34.260
burada bulunan her bir stajyer ajanı senkronize etmektir.

03:34.350 --> 03:36.110
Bunu yapmak için bunu yapalım.

03:36.140 --> 03:39.170
Torche kütüphanemizi alacağız.

03:39.170 --> 03:45.350
Sonra manuel alt çizgi tohum parantezi ile tohum alacağız.

03:45.350 --> 03:51.040
Bu bir işlevdir ve şimdi, tohumdan erişebildiğimiz tüm ajanların tohumlarını

03:51.220 --> 03:55.620
alıp onları senkronize etme rütbesine kaydırmaya gidiyoruz.

03:55.660 --> 04:05.420
Bu acentelerin her biri sadece artı rec ekleyecek ve bu, her bir stajyer acentesini devralmak için tohum sıralamasını değiştirecek

04:05.510 --> 04:09.970
çünkü her bir eğitim ajansı için bir tohum var.

04:09.980 --> 04:15.390
Pekâlâ, ilk iş bitti ve şimdi bir sonraki adım çevreyi elde etmektir.

04:15.530 --> 04:21.470
Bu yüzden, şimdi arayacağımız ve şimdi Atari'yi yaratmak ve koparma için ortam yaratmak

04:21.590 --> 04:26.120
için son modülden işlemek için kullanacağımız yeni bir değişken yaratacağız.

04:26.150 --> 04:28.130
Bu, patlama ortamını yakalamaktır.

04:28.250 --> 04:38.070
Bu yüzden bu işlevi Terry'yi yaratıyoruz ve şimdi çevre parametreleri olan tek bir argümanı

04:38.070 --> 04:39.060
girmeliyiz.

04:39.270 --> 04:42.730
Ve onlara sahibiz çünkü bu beyin işlevinin girdilerinden biridir.

04:42.750 --> 04:48.270
Buradaki bu parametre, koparma ortamının parametreleri olacak ve bu nedenle,

04:48.330 --> 04:58.320
bu programları savunan ortamları elde etmek için bu programı tartışıyoruz ve daha sonra bir sonraki kodda ana

04:58.320 --> 05:03.240
fonksiyon olan bir isim edineceğiz tüm kodu idam

05:03.240 --> 05:06.010
edecek brüksel sadrazamı koparma olacak.

05:06.010 --> 05:09.450
Pekala, çevreyi mükemmel kılacaktır.

05:09.610 --> 05:16.080
Ve şimdi bir sonraki adım çevre merkezini ajanlardan birine hizalamaktır.

05:16.180 --> 05:17.650
Ve bunu neden yapıyoruz.

05:17.650 --> 05:24.220
Bunun nedeni, A-3 Silmaril'in her ajanının çevrenin kendi kopyası gibi kendi vizyonuna sahip olduğunu

05:24.220 --> 05:31.000
ve bu nedenle, ajanların her birinin çevrenin belirli bir sürümünde sıralamasını ve devam etmek

05:31.000 --> 05:36.520
için bunu yapmamızın gerektiğini unutmayın. Koltuğu kullanmak için her koltuk belirli bir

05:36.520 --> 05:37.320
ortam belirlediğinden.

05:37.450 --> 05:43.390
Bu nedenle, her ajan için farklı bir tohum ilişkilendirerek tam olarak ne istediğimizi elde ederiz,

05:43.390 --> 05:46.340
ki bu da her ajanın kendi çevresi olacaktır.

05:46.500 --> 05:54.730
Peki bunu nasıl yapabiliriz ki o zaman çevremizi alabiliriz o zaman o zaman tohum işlevi sizin için çevre

05:54.770 --> 05:57.340
için olanları seçtiğinizi bildiğinizi kullanın.

05:57.520 --> 06:01.370
Ve şimdi ortamın koltuğunu ajan tohumu ile hizalamak.

06:01.600 --> 06:08.460
Peki bu işi almamız gerekiyor çünkü bu, ajanların koltuklarına tekabül ediyor ve bu da, her şeyin farklı

06:08.530 --> 06:14.170
bir sette olması nedeniyle, iyi organize edilmiş eğitim ajanlarına sahip olmak için sıralamaya kaydı.

06:14.200 --> 06:20.020
Dolayısıyla, bunu burada ödemek zorunda kalacağız ve bu, ortamın koltuğunu ajandan

06:21.210 --> 06:24.660
birine hizalayacaktır. Tamam, şimdi modelimizi alacağız.

06:24.670 --> 06:27.060
İşte bizim A-3 gör beynimiz.

06:27.180 --> 06:32.320
Şimdi, aktif sınıfı model dosyamızdan kullanacağız.

06:32.350 --> 06:38.500
yeni bir nesnesi oluşturacağız ve isterseniz bu nesne modeli veya beyin olarak adlandıracağız.

06:38.500 --> 06:40.960
Temel olarak bu etkinlik sınıfının

06:41.200 --> 06:47.650
Ancak temel olarak bu nesne, CM'nin tüm sarmallarını içerecektir. Doğrusal bağlantı ve Ford, sinyali

06:47.650 --> 06:49.500
yaymak için işlev görür.

06:49.600 --> 06:55.630
Bu nedenle, temelde, eleştiricideki aktörün beyinlerini, son çıkışı elde etmek

06:55.630 --> 06:59.120
için beyindeki sinyali yayma yeteneğini içerecektir.

06:59.170 --> 07:06.850
O halde bunu yapalım, böylece bu nesne modeli çağırmak istediğimizi söyleyelim modelimizi yaratalım.

07:07.150 --> 07:15.040
Ve bu nedenle Act create sınıfının bir nesnesi oluşturuyoruz ve bu nedenle sınıf bir aktör eleştirmeni ele alıyoruz ve şimdi

07:15.040 --> 07:17.250
iki girdiğinde hangi argümanları hatırlıyoruz.

07:17.350 --> 07:20.420
Aslında işlevin argümanlarıdır.

07:20.640 --> 07:26.230
Yani bizzat kendimiz girmek zorundayız, biliyorsunuz, yöntemde nesneyi kullanmak için yapmamız gereken şey bu.

07:26.530 --> 07:33.010
Fakat sonra koymamız gereken argümanlar, baskı resimlerinde sanat zincirlerinde yapılan kötü

07:33.010 --> 07:38.680
şekildeki nominal putlar ve eylem setini bildiğiniz gerçek alanı içeriyor.

07:38.680 --> 07:42.550
Bu argümanları tren işlevine koyalım.

07:42.760 --> 07:51.580
Birincisi, bunu ortamımızla alabiliriz ve o zaman gözlem alanını kullanırız, o zaman gözlem alanı budur ve

07:51.580 --> 07:59.020
o zaman biz de gölge parantezinin sıfırını elde ettiğimiz girdilerin sayısını elde edersiniz.

07:59.190 --> 07:59.550
Tamam.

07:59.550 --> 08:01.120
Bu girdiler içindir.

08:01.290 --> 08:04.690
Ve şimdi eylem alanı için.

08:04.860 --> 08:10.480
Bu, çevremizden almamız gereken neredeyse aynı, bundan daha önemli olduğumuz anlamına geliyor.

08:10.500 --> 08:12.920
Ve sonra eylem alanı.

08:12.920 --> 08:13.260
Tamam.

08:13.260 --> 08:17.860
Ve bu bize bir nesne oluştururken girmemiz gereken argümanları verir.

08:17.860 --> 08:20.130
Yürütme sınıfının modeli.

08:20.400 --> 08:25.150
Tamam şimdi modelimize sahibiz ve şimdi bir sonraki adım giriş durumlarımızı hazırlamaktır.

08:25.170 --> 08:31.230
Dolayısıyla hala daha derin olmayan gayri resmi öğrenim içerdiğini hatırlayın; bu nedenle girişteki girdi imgelerimiz

08:31.560 --> 08:37.080
giriş imgelerimizi belirtir ve bu nedenle Ray, başlangıçta bir kanalı içerecek, çünkü siyah

08:37.080 --> 08:40.670
beyaz görüntülerle çalışacağız ve 42 okyanusunda zaman geçirecektir. 42.

08:40.980 --> 08:46.680
Ancak burada anlamak ve girdi durumlarının girdi görüntüleri olduğunu akılda tutmak önemlidir.

08:46.680 --> 08:51.940
Bu durumda yapmamız gereken güçsüz almaktır, o zaman bunu bir işkence cevabına dönüştüreceğiz.

08:52.050 --> 08:57.770
Ancak daha önce yaptığımız şeylerin başında bir hakem bulup almak için attığımız ilk adım var.

08:57.840 --> 08:58.970
Aslında oldukça basit.

08:58.980 --> 09:06.080
duruma çapraz gelecek ve bir hakem dizisi elde etmek için bu değişken için bir değişken oluşturmamız gerekir.

09:06.080 --> 09:07.130
İlk önce,

09:07.230 --> 09:13.000
Ortamımızı alıp uyumamız ve ardından sıfırlama işlevini kullanmamız yeterlidir.

09:13.200 --> 09:19.940
Ve bu, devletleri 42 x 42 boyutlarında bir imparatorluk dizisi olarak başlatacaktır.

09:20.190 --> 09:27.170
Biri 1 kanal, yani siyah beyaz görüntü ve 42 x 42 görüntünün hakimiyeti anlamına geliyor.

09:27.210 --> 09:30.860
Piksel sayısı ve genişliği ve piksel sayısı ve yükseklik.

09:30.870 --> 09:32.630
Temelde bu sadece zaman örneğidir.

09:32.670 --> 09:34.660
Ve birlikte çalıştıklarımız da bu.

09:34.820 --> 09:40.830
yaptýk çünkü ţimdi İmparatorluk'ta böyle bir zaman sigortasý imajý elde edecek.

09:40.830 --> 09:42.670
Ve ţimdi simdi umpiring

09:42.870 --> 09:48.510
Şimdi onları meşale dansçılarına dönüştürebiliriz ve bunu yapmak için tekrar veri durumuna geçeceğiz,

09:48.510 --> 09:50.890
çünkü sayı dizilerini saklamak zorunda değiliz.

09:51.180 --> 09:55.030
Ve meşale modülünün fenerini kullandığımız yer burası.

09:55.260 --> 10:02.790
Unutma ki zaten bunu alt çizgi olmayan Tay dili parantezi işleviyle yapmaktayız.

10:02.880 --> 10:08.350
Ve bu fonksiyonun içinde, bir meşale sensörüne dönüştürmek istediğimiz sayı oranını girmeliyiz.

10:08.610 --> 10:14.880
Devlet tarafından ödenmeyen dizinin önceki versiyonu boru işlevinden bir meşale sensöründen

10:14.880 --> 10:20.510
boru hattı haline gelecek ve böylece devletten yoğunlaşan durum budur.

10:20.550 --> 10:24.870
Ve şimdi sadece yapılışı başlatmaya ihtiyacımız var.

10:24.870 --> 10:30.650
Değişken genellikle bir bölüm bittiğinde veya oyun bittiğinde bunu söyleyen değişken olduğunu unutmayın.

10:30.870 --> 10:37.110
Burada sadece yaptıklarımızı çok iyi tanıtmak ve oyun başlatıldığında bu Voivode'un doğruya eşit

10:37.160 --> 10:41.230
olacağını belirtmek için initialiser'ı true olarak uygulamak istiyoruz.

10:41.260 --> 10:46.790
Bu, AI'nın sonsuza kadar oynamaması için daha sonradan kullanışlı olacak.

10:46.820 --> 10:47.350
Tamam.

10:47.390 --> 10:54.320
Bu temel olarak bu eğilim işlevinin başlangıcı bazı başlatma ve yapmamız gereken

10:54.320 --> 10:55.370
bazı şeylerdi.

10:55.370 --> 11:00.560
Buradaki en önemli şey, her bir stajyer temsilcisinin imtiyazını kaldırmamız gerektiğiydi.

11:00.560 --> 11:04.890
Bu, uygulamak zorunda olduğumuz A3 benzerinin ilk ilkesidir.

11:05.160 --> 11:09.780
Ve şimdi sonraki öğreticide paylaşılan modelle senkronizasyona geçeceğiz.

11:09.830 --> 11:14.810
Unutmayalım, farklı bir model var, aynı zamanda tüm ajanların paylaştığı bir model olan

11:14.810 --> 11:16.180
paylaşım modeli var.

11:16.190 --> 11:22.430
Ve bu nedenle gösteri modeli ile senkronize etmeliyiz, böylece her ajan, paylaşılan bu

11:22.520 --> 11:25.990
modeli belirli sayıda adımın küçük bir araştırmasına yönlendirdi.

11:26.000 --> 11:28.080
Bir sonraki Statoil'de bunu yapacağız.

11:28.130 --> 11:29.710
Ve o zamana kadar AI zevk.
