WEBVTT

00:00.830 --> 00:04.470
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.580 --> 00:09.520
Umarım bugünün öğretmeninden heyecanlısın çünkü ilk adımımızı dünyaya I. adıma

00:09.520 --> 00:10.170
atıyoruz.

00:10.460 --> 00:13.150
Ve bugün takviye öğrenmesinden bahsediyoruz.

00:13.280 --> 00:18.710
Bu çok önemli bir hikaye, çünkü her şeyin temelini oluşturacak olan bu derste olacak.

00:18.770 --> 00:21.010
O halde burada başlayalım.

00:21.020 --> 00:27.140
Küçük bir labirentimiz var ve bu labirent bir çevre temsilimizdir ve bu derste

00:27.140 --> 00:29.210
başa çıkacağımız şey budur.

00:29.210 --> 00:34.040
Yapay zekamızın gerçekleştireceği bazı ortamlarla ilgileneceğiz, bu

00:34.040 --> 00:39.950
ortamlarda kazanmak için aradığı şeyin üstesinden gelmek için arıyor

00:39.950 --> 00:42.350
olacağı eylemleri gerçekleştireceğiz.

00:42.350 --> 00:44.190
Ve burada bir menajer var.

00:44.360 --> 00:46.990
Ajan yapay zekamız.

00:47.030 --> 00:52.910
Bu kişiler budur ya da bu ortamlarda dolaşacak zihin ve akıllarının

00:53.000 --> 00:57.110
belirli eylemleri gerçekleştirmek için verdiği geribildirimden öğrenmektir.

00:57.150 --> 01:02.180
Ve bu şekilde, aracı, bu ortamda belirli eylemleri gerçekleştirir.

01:02.360 --> 01:09.050
Ve sonuçta içinde olduğu devlet değişecek, bu yüzden daha sağa sola doğru daha fazla veya daha yakın ya da

01:09.050 --> 01:10.070
daha fazla olabilir.

01:10.070 --> 01:15.030
Devleti ve bu parametreleri açıklayan diğer parametrelerden biri olabilir.

01:15.100 --> 01:20.720
Böylece devlet, harekât aldığı için değişecek ve eylem üzerine temellendirilecektir.

01:20.720 --> 01:20.970
&nbsp;

01:20.970 --> 01:24.950
Dolayısıyla bir harekete geçtiğinde devlet değişecek ve ödül alacak.

01:24.950 --> 01:29.170
Şimdi aklınızda bulunduğunuzda, bazen durumun değişmeyeceği, hareketin bir kalış süresini değiştirmeyeceği

01:29.170 --> 01:33.070
veya bu eylemi gerçekleştirmek için bir ödülün olmayacağı bir durum olabilir.

01:33.110 --> 01:34.530
Bu anlamda öyleydi.

01:34.670 --> 01:38.480
Ancak yine de temsilci bunu yapmaya devam ederse devletin aldatılmasına ve

01:38.480 --> 01:42.510
devleti değiştiren ve ödül kazanmak için hareketi değiştiren ödülleri almaya hükmedilecekti.

01:42.800 --> 01:47.840
Ve bu işlemi yaparak, hangi eylemlerin iyi ödüller ve olumlu

01:48.200 --> 01:53.970
devletlere yol açtığını ve ikisinin olumsuz bir duruma düşen eylemleri anlayarak

01:53.990 --> 01:55.840
çevrenin keşfedileceğini öğreneceğiz.

01:56.000 --> 01:59.690
Ve bu çok basit bir temsili çok küresel bir sorundur.

01:59.690 --> 02:04.390
Dolayısıyla, ortamları düşünürseniz, aslında sadece labirent olmak zorunda değilsiniz.

02:04.400 --> 02:09.170
Sadece bir labirentten çıkmak ya da bir labirentte bir hazine bulmaktan ibaret değil.

02:09.170 --> 02:11.740
Bir ortam, hayatta hemen her şey olabilir.

02:11.750 --> 02:15.180
Sabah uyandığınızı ve bir omlet pişirmeyi hayal edin.

02:15.410 --> 02:22.010
Bu omlet yapmak için belirli adımları atmanız gerekiyor, böylece yumurta almak için gereken belirli adımları atmanız yeterlidir ve

02:22.010 --> 02:27.770
ateş etmeye devam eden kızartılmış tencereler vb. Alınıyor ve sıradan bir sıradan şey gibi geliyor.

02:27.770 --> 02:29.870
Ancak rutin hale geldi, çünkü bunu birçok kez yaptınız.

02:29.960 --> 02:34.670
aksiyonları gerçekleştirdiğiniz bir ortam, yangına kızartma tavası koyarak

02:34.670 --> 02:40.250
yumurta koyup yumurta üzerine tuz koyarsınız. ve dönüyorsun vb.

02:40.250 --> 02:43.190
Ancak gerçekte, yangın söndürdüğünüz bazı

02:43.190 --> 02:49.970
Görüldüğü gibi CRN eylemleri olan eylemler belli devletlerde alınıyor ve bu eylemler diğer bazı devletlere

02:49.970 --> 02:52.460
ve bazen de ödüllere neden oluyor.

02:52.460 --> 02:57.650
Örneğin, örneğin ateşi açtığınızda ve beklemek bekleyin bekle bekle bir eylemde bekle bekle bekle bekle

02:57.650 --> 03:01.900
bekle çok uzun süre bekleyin ve sonra da kızartma tavasına yumurta koyarsınız.

03:01.910 --> 03:03.560
Ödüller çok olumsuz olacak.

03:03.560 --> 03:05.120
Hepsi yanacak.

03:05.120 --> 03:10.130
eylemlerin zamanında doğru noktalarda yapılması gerektiğini anlamanız da çok önemlidir.

03:10.130 --> 03:13.850
Öte yandan, tüm doğru eylemleri doğru zamanda yaparsanız,

03:13.850 --> 03:20.090
Yani yumurta koymadan önce tavayı kızartma tavasına koymak iyi bir fikir

03:20.090 --> 03:20.770
olmayabilir.

03:20.780 --> 03:26.190
Tuzu kızartma tavasına yumurta girdikten sonra koyarak

03:26.200 --> 03:28.320
harekete geçmek isteyebilirsiniz.

03:28.370 --> 03:29.620
Bu yüzden hatırlamak önemlidir.

03:29.780 --> 03:34.070
Ve aynı zamanda, doğru durumdaki doğru sırayla doğru olan tüm

03:34.580 --> 03:38.840
eylemleri yerine getirirseniz, nihai ödülünüz yiyebileceğiniz bir omlet olmanız olabilir.

03:38.900 --> 03:44.660
Ve hayatınızdaki çok temel bir etkinlik budur, ancak bu konuda düşündüğünüz şey aslında bir çevre ve siz bu

03:44.990 --> 03:50.060
ortamdan geçmekte olan bir görevlisiniz ve bir şey öğrenmek zorunda olmadığınız bir görevi yerine getiriyorsunuz, çünkü

03:50.060 --> 03:52.190
bunu zaten çok iyi biliyorsunuz .

03:52.220 --> 03:56.170
Ancak aynı zamanda daha iyi bir omlet nasıl hazırlanacağınızı öğreneceğinizi veya

03:56.340 --> 03:59.010
özellikle ilk omletinizi yaparsanız muhtemelen onu mahvettiğinizi öğreneceksiniz.

03:59.030 --> 04:04.010
Ancak bundan öğrenirsiniz, çünkü hangi eylemlerin devletler ve yollar ve hayatta başka herhangi bir şey

04:04.490 --> 04:05.890
için yol açtığını anlayacaksınız.

04:06.050 --> 04:11.900
satım ve getiri pozitif veya negatif getiri anlamında piyasadan belirli geri bildirim alma.

04:11.900 --> 04:16.390
Örneğin hisse senedi piyasasında işlem yapmak ve biliyorsunuz ki alım

04:16.430 --> 04:20.160
Bu aynı zamanda yaşlanmaya başladığınız ortamda yer aldığınız bir ortam.

04:20.210 --> 04:25.220
Araba sürmek, direksiyon simidini çevirebileceğiniz, kırabileceğiniz gibi hızlandırabileceğiniz ve çevreyle ilgili geribildirim

04:25.220 --> 04:29.510
alabileceğiniz bir ortamdır ve bu geribildirimden birinin, sizi hızlandıracak bir

04:29.510 --> 04:35.840
cezanın verildiği polis memuru olduğunun bilincindeyseniz, o karayolu üzerinde kabul edilebilir veya izin verilen hız

04:35.840 --> 04:36.960
sınırının üstünde.

04:37.040 --> 04:41.900
Ve bundan dolayı, bunun bir yapılması gereken şey olmadığını, çünkü olumsuz bir

04:41.900 --> 04:43.020
ödüle götürdüğünü öğrenirsiniz.

04:43.220 --> 04:45.590
Dolayısıyla ödüller, işlemin hemen bitiminde olmak zorunda değildir.

04:45.590 --> 04:48.020
İşlem boyunca yolculuk boyunca sürebilirler.

04:48.020 --> 04:49.490
Yani bunlar birkaç örnektir.

04:49.490 --> 04:54.980
Ve ben, takviye öğrenmeyi düşünmenin en basit yolu, köpekleri eğitirken bir köpeği eğitmek gibi bazı

04:54.980 --> 05:00.270
komutları vermek ve bu komutlara uyarsa ona bir bisküvi falan gibi bir erişim veriyorsun demektir

05:00.440 --> 05:04.820
Eğer Abeles Kamaz değilse, bunun kötü bir köpek olduğunu söylüyorsun ya da

05:04.820 --> 05:06.600
sadece ona bir zevk vermiyorsun.

05:06.830 --> 05:13.820
gerektiğini, bazı devletlerde ve devletlerde alması gereken şeyleri öğrenir ve verdiğiniz komutlar olur.

05:13.820 --> 05:18.470
Ve bu süreç boyunca belli komutların ne işe yaraması

05:18.470 --> 05:22.700
Ve buna dayanarak, AI dünyasında tabii ki bazı ödüller elde edilecek.

05:22.700 --> 05:24.590
Bu karmaşık değil.

05:24.590 --> 05:26.910
Tedavileri vermek zorunda değilsin.

05:26.960 --> 05:32.120
Sizinle birlikte bir bisküvi çorbası olması gerekmez, çünkü her seferinde bir artı bir

05:32.120 --> 05:37.290
veya bir eksi koyarsanız, AI dünyasında kendimizi bu AI'ları yarattığımızda büyük bir avantaj oluşturuyor.

05:37.310 --> 05:42.680
Bu yüzden onlara veriyoruz ödülleri gerçekten harika ödüller bunun için aslında sadece bir artı veya eksi

05:42.680 --> 05:48.490
bir veya artı bir veya sıfır ya da bir şey var olmadığını onlara vermek düşünüyorlar veriyoruz ödüller.

05:48.500 --> 05:51.100
Öyleyse hepsi hayali şeylerdir.

05:51.110 --> 05:56.300
Fakat aynı zamanda muhteşem inanılmaz yapay zeka gibi şaşırtıcı bu yapay

05:56.300 --> 06:01.760
zekayı, yalnızca gerçekten var olmadığımız ödülleri sunarak bu şaşırtıcı şeyleri yaratabiliriz.

06:01.790 --> 06:05.670
Artı ve eksi bir şey ama aynı zamanda çıkış sonuçları maliyeti yok.

06:05.900 --> 06:08.170
Gerçek dünyaya çok benzer.

06:08.210 --> 06:15.140
Ve örneğin Dokes biliyorsunuz Ama burada ödüller sayısal ve sadece sayı.

06:15.140 --> 06:20.920
bu resimlerde hemen hemen her yerde değil, tam olarak bildiğiniz robot köpek, robot köpeklerin bir

06:20.920 --> 06:26.630
kısmını öğrendiğiniz takviye yoluyla eğitilir. Özellikle de sahip olduğunuz eski köpekleri öğrenebilirsiniz. oradaki bir algoritma.

06:26.710 --> 06:31.050
Ve bunu akılda tutarak robot köpekler hakkında konuşabiliriz Bu örneği seviyorum,

06:31.370 --> 06:39.260
Ve bu aslında önceden programlanmış ajanlar ile takviye öğrenme aracı arasındaki farkın iyi bir

06:39.260 --> 06:46.120
örneğidir, bu yüzden size nasıl yürütülacağına önceden programlanmış bir robot köpeği olabilir.

06:46.160 --> 06:51.500
Yani yazılımdaki köpek arkasındaki algoritmada OK diyeceksiniz, böylece yürümek için sol bacağınızı öne doğru sol ön

06:52.370 --> 06:58.160
bacağınızı öne, daha sonra sırt sağ bacağını öne, sonra ön sağ bacağına ilerletirsin, sonra sırtın sol bacağını

06:58.160 --> 07:02.480
ileri doğru hareket ettirin. ve bu eylemi tekrar edin ve biliyorsunuz ki yürüme

07:02.480 --> 07:04.870
tanımı bu köpeğin içinde bir işlevdir.

07:05.040 --> 07:09.060
Ve sonra nasıl duracağını ve bunun gibi şeyleri nasıl yapacağını biliyor olabilirsin.

07:09.680 --> 07:16.360
Olanları öğrenmek için takviye yoluyla eğitilmiş bir robot köpekte, bunu önceden programlamıyorsunuz

07:16.360 --> 07:16.710
demektir.

07:16.730 --> 07:23.810
Köpeğe zor kodlanmış herhangi bir algoritma içermediğinden burada her şeyin en önemli

07:23.810 --> 07:24.850
kavramı budur.

07:24.860 --> 07:28.300
Bunun yerine gelecekte tartışacağımız şeylerin var.

07:28.460 --> 07:36.710
Tamamın amacının şimdi örneğin odanın sonuna kadar bir şey bilmediğiniz yerden gelmek

07:36.860 --> 07:41.990
olduğunu söyleyen bu takviye öğrenme algoritmasına sahipsiniz.

07:42.170 --> 07:44.270
Ve alabileceğiniz bazı eylemler şunlardır.

07:44.270 --> 07:48.950
Sağ ayağını hareket ettirebilirsin, sol ayağını hareket ettirebilirsin sağ arka ayağını hareket ettirebilirsin,

07:48.950 --> 07:53.000
geri ayağınızı bırakırsınız böylece burada yapabileceğiniz tüm serbestlik dereceleri gibi hareket

07:53.000 --> 07:59.180
edebilir, öyle hareket edebilirsin ki bunun bir listesi gibi alabileceğiniz eylemler ve ödülleriniz her adım attığınızda her

07:59.210 --> 08:01.430
defasında bir artı bir tane elde edersiniz.

08:01.430 --> 08:04.090
Bir eksiğiniz var, hepsine sahip.

08:04.160 --> 08:07.390
Ve sonra sadece köpeği bırakıp kendi başına anlamaya bırakıyorlar.

08:07.400 --> 08:13.460
Köpek ayağa kalkmaya çalışırsa düşer düşerse o zaman bunu düşündüğümü fark ederim ki düşmeye neden olan bu eylemi yapmamalıyım

08:13.460 --> 08:17.040
çünkü her düşüşümde benim için iyi olmayan eksi bir tane olsun.

08:17.060 --> 08:21.560
Ayağa kalkmasına yardımcı olan diğer hareketler de öyledir; rakamlar, deneylerin deneylerinin deneylerinin

08:21.560 --> 08:26.090
rastgele deneyleriyle yapıldığını ve ardından sağ ön ayağını hareket ettirerek bir adım

08:26.090 --> 08:31.410
atabileceğini ve artı bir puan aldığını fark etmesi gerektiğini anlamıştı. daha fazlasını yap.

08:31.460 --> 08:35.620
Tamam, şimdi de bunun daha fazlasını ve daha azını yapması gerektiğini öğrenmesi için serin.

08:35.630 --> 08:42.270
Ve bu öğrenme süreci boyunca, nasıl yürüdüğünü çabucak çabucak anlar.

08:42.410 --> 08:49.130
başına düşündükleri köpekler aslında önceden programlanmış köpeklerden daha iyi yürüyebilirler, çünkü gerçekte hazırlanmış programlı şeylerden

08:49.130 --> 08:53.930
gerçek hayvanlara bakarız ve ya kendi hayal gücünü nasıl kullanacağımızı

08:53.930 --> 08:59.960
biliyorsun, buna karşılık bir takviye öğrenme köpek olabilir işleri kendi başına optimize edin.

08:59.960 --> 09:00.300
Kendi

09:00.320 --> 09:03.540
Ve AI'da bazen daha iyi sonuçlar elde edebilirsiniz.

09:03.680 --> 09:05.290
Ve bu şekilde bu robotları eğitebilirler.

09:05.320 --> 09:07.320
Aynı robot futbol oynamak için köpekler.

09:07.520 --> 09:12.970
Futbol oynamak için normal bir köpeği eğitebilirsiniz, çünkü bütün yaklaşımı farklı olduğunu bilirsiniz.

09:12.980 --> 09:20.900
Ve muhtemelen, normal bir köpek için eğitilmiş ya da evrimi sürecinde yapmış olduğunu

09:20.900 --> 09:23.030
bildiğiniz bir şey değildir.

09:23.030 --> 09:28.190
ne gibi hedefler taşıdıklarını anlattıkları sürece futbol oynamayı çok kolay anlayabilirler.

09:28.190 --> 09:32.760
Robot köpekler, bir takviye öğrenme öğrenirken onlara, hangi hediyelerin

09:33.080 --> 09:36.390
Takdir öğrenmenin nasıl işlediği budur.

09:36.410 --> 09:39.160
Genel olarak, takviye öğrenmeyle ilgili hızlı bir genel bakış var.

09:39.170 --> 09:45.500
Umarım sizi çok heyecanlandırır çünkü bir sonraki adıma geçmek için ön program çözümlerine kıyasla

09:45.530 --> 09:51.980
tamamen farklı bir dünya olduğu için bir sonraki aşamada zorlu bir programla kodlanmış çözümler getirir.

09:51.980 --> 09:53.750
Bu çok farklı.

09:53.840 --> 09:56.010
Ve bundan daha çok konuşacağız.

09:56.150 --> 10:03.400
sahibiz, bu nedenle bazı destek materyalleri edinmek isterseniz İşte size bakıp bakabileceğiniz harika bir makale.

10:03.700 --> 10:06.810
Bu arada sizlere bazı ek kaynaklara

10:06.830 --> 10:09.300
Tensör akışı ile basit takviye öğrenme denir.

10:09.430 --> 10:10.570
On parçada var.

10:10.570 --> 10:14.790
Bağlantı burada ve üzerinde tam tıklanabilir bağlantı bulacaksınız.

10:14.820 --> 10:22.540
Arthur Giuliani'nin 2016 makalesindeki kaynaklarda bu dersi takip edebilir ve ayrıca bu

10:22.540 --> 10:24.770
makaleden ek bilgi alabilirsiniz.

10:24.790 --> 10:30.010
ama implantasyonlar kullandığınız ancak burada aynı anda birkaç yerden bir

10:30.520 --> 10:35.830
şeyler toplayabileceğimiz akılda tutulması gerektiğini unutmayın. Bu derste yapacakları şeyler.

10:35.830 --> 10:41.260
Ancak, bu makalede olduğu gibi bu derste olduğu gibi, farklı uygulama

10:41.260 --> 10:44.910
Kesinlikle izlemeyi düşünüyorsanız harika makale sizi takip ediyor.

10:44.920 --> 10:45.820
Hala durum böyle.

10:45.820 --> 10:51.890
İlk bölümü kontrol edin ve biraz daha okumak isteyip istemediğinizi görünüp beğenmeyin bakın.

10:52.210 --> 10:58.210
Ve daha sonra, bu öğretiye özgü bir sınır zorlaması var öğreniyoruz; burada Richard Sutton tarafından takviye

10:58.210 --> 11:00.380
öğrenme adı verilen bir kağıt var.

11:00.420 --> 11:08.170
aynı zamanda omlet örneği ve takviye öğrenmesinin uygulanabileceği diğer örnekler ve takviye öğrenmesinin genel bir genel

11:08.170 --> 11:13.960
görünümü gibi bazı örneklerin öğrenilmesi için takviye hakkında biraz bilgi edinebilirsiniz.

11:13.960 --> 11:17.710
Bir giriş, 1998 yılı kağıtları oldukça eskidir ancak

11:17.710 --> 11:23.220
Bazı ilave okumalar arıyorsanız ve bu notta bu öğreticiyi tamamlayacağız.

11:23.230 --> 11:24.640
Bir dahaki sefere seni görmek için sabırsızlanıyorum.

11:24.640 --> 11:26.560
Ve o zamana kadar AI zevk.