WEBVTT

00:00.660 --> 00:03.540
Bine ai venit la cursul de inteligență artificială.

00:03.540 --> 00:08.940
În tutorialul de astăzi vom acoperi un tutorial destul de complex numit urmărire de eligibilitate sau și

00:08.940 --> 00:09.500
pas.

00:09.500 --> 00:14.970
Q learning și asta este ceva ce voi pune în aplicare în aspectul practic al lucrurilor, de aceea

00:14.970 --> 00:21.390
trebuie să ieșim din centru și este un subiect destul de complex, așa că avem o abordare foarte interesantă pentru a

00:21.690 --> 00:24.880
ne ridica la viteza cu intuiția din spatele ei.

00:24.890 --> 00:29.760
Așa că am în minte o altă abordare decât ne-am obișnuit să ne uităm la acest lucru și să

00:29.760 --> 00:30.560
vedem cum merge.

00:30.780 --> 00:34.190
Aș vrea să vă dau un exemplu pentru a începe.

00:34.260 --> 00:39.990
Vă voi da un exemplu în acest tutorial și asta va demonstra puterea de eligibilitate.

00:40.020 --> 00:42.470
Și dați-ne intuiția din spatele lucrurilor.

00:42.540 --> 00:47.880
Și apoi, dacă vă place să căutați în continuare trăsăturile de eligibilitate, vă voi oferi cel mai bun loc unde

00:47.880 --> 00:49.210
puteți citi despre ele.

00:49.290 --> 00:52.560
Vă voi da o referință la o carte, dar altfel.

00:52.560 --> 00:57.120
Deci, în timp ce acest lucru va fi diferit pentru că suntem mai întâi în el, decât să ne

00:57.420 --> 01:01.580
îndreptăm spre intuiție, vom privi un exemplu și intuiția va deveni evidentă după ce vom vorbi.

01:01.580 --> 01:03.010
Și asta este speranța mea.

01:03.130 --> 01:03.860
Să aruncăm o privire.

01:03.860 --> 01:06.000
Hai să vedem dacă putem face asta.

01:06.000 --> 01:12.780
Deci, avem doi agenți și navighează în același mediu și vom vedea cum funcționează acești

01:12.780 --> 01:13.740
doi agenți.

01:13.740 --> 01:16.260
Primul va funcționa cu următorul criteriu de eligibilitate.

01:16.260 --> 01:22.230
Al doilea va lucra cu o urmă nelegitimă și, sperăm, vom vedea de ce al doilea va

01:22.230 --> 01:24.450
fi mult mai puternic decât primul.

01:24.630 --> 01:26.240
Să aruncăm o privire.

01:26.250 --> 01:28.040
Vom privi mai întâi acest agent.

01:28.320 --> 01:34.170
Iar felul în care operează este exact modul în care am discutat până acum o problemă circulară profundă.

01:34.530 --> 01:40.230
Deci, agentul va face un pas sau se va mișca să ia o acțiune de mutare într-un nou stat.

01:40.260 --> 01:45.480
Bună pentru a obține o anumită recompensă va pune asta prin sau prin algoritmul său de

01:45.480 --> 01:50.610
actualizare a rețelei neuronale care rulează acest agent sau care rulează în mintea acestui agent.

01:50.610 --> 01:54.870
Deci, în principiu, modul în care învață din acel moment va face un nou pas.

01:54.870 --> 01:59.550
Deci, de la acest nou stat se va lua o nouă acțiune bazată pe ceea ce rețeaua sa neurală îi spune să

01:59.550 --> 02:03.930
facă este să obțină recompense în curs de actualizare și așa mai departe și va continua să facă acest lucru.

02:03.930 --> 02:09.370
Deci, evident, acest lucru va face o treabă destul de bună și, după cum am văzut anterior de

02:09.400 --> 02:15.450
la Squire practică anterioară la DROs, vom obține niște rezultate destul de bune aici, dar acum vom adăuga o nouă caracteristică.

02:15.480 --> 02:21.380
Acum, agentul numărul doi, tipul ăla de aici va naviga în același mediu.

02:21.570 --> 02:23.770
Ce va folosi lizibilitatea copacilor.

02:23.940 --> 02:25.170
Și asta înseamnă.

02:25.170 --> 02:30.280
Ceea ce va face este că va lua orice măsuri pe care le va lua

02:30.300 --> 02:38.730
în acest caz cinci forceps va face patru pași și apoi numai după ce vor face acești pași va calcula răsplata totală pe care a

02:38.730 --> 02:42.730
obținut-o din acești pași și va pune-l prin rețeaua lui.

02:42.730 --> 02:48.420
El o va pune prin rețeaua sa neuronală care guvernează procesul de luare a deciziilor, iar apoi

02:48.420 --> 02:50.690
rețeaua neurală va învăța din asta.

02:50.700 --> 02:51.600
Deci, care dintre ele.

02:51.630 --> 02:54.050
La fel ca cine credeți că este mai puternic.

02:54.150 --> 02:59.070
Tipul care o ia doar cu un pas la un moment dat și cumva o să lovească în orb sau în întuneric și e ca OK,

02:59.070 --> 03:01.550
așa că am să fac un pas să văd ce se întâmplă.

03:01.620 --> 03:02.830
Faceți un pas să vedeți ce se întâmplă.

03:02.850 --> 03:03.480
Luați pași.

03:03.480 --> 03:04.020
Ce se întâmplă.

03:04.020 --> 03:10.680
Tipul de la vârf sau tipul care ia foarte curajos pe Marsha prin patru pași la rând și apoi decide dacă aceștia

03:11.130 --> 03:17.610
erau pași buni sau nu, și de ce puteți vedea aici sau de ce probabil că aveți un sens pentru motivul

03:17.610 --> 03:22.470
pentru care tipul secund este mai bun sau este mai puternic deoarece cel de-al doilea

03:22.470 --> 03:25.160
tip știe de fapt ce este la sfârșit.

03:25.170 --> 03:30.030
Primul tip când e când evaluează dacă acest pas este bun sau nu privește doar la răsplata pe

03:30.030 --> 03:31.170
care o primește.

03:31.280 --> 03:34.430
Și astfel el este doar ghidat de răsplata pe care o dă mediul înconjurător.

03:34.440 --> 03:39.570
Același lucru îl conduce doar de răsplata pe care acest mediu îl oferă aici.

03:39.620 --> 03:46.490
Deci, de fiecare dată când este singurul său busolă, că are recompensa recompensa, recompensa.

03:46.560 --> 03:51.800
În timp ce aici el poate evalua, după ce a luat măsurile pe care le poate evalua.

03:51.820 --> 03:53.960
OK, așa că am ajuns la linia de sosire.

03:54.000 --> 03:56.640
Așadar, această combinație de pași a fost bună.

03:56.700 --> 03:57.680
Toate erau bune.

03:57.840 --> 04:01.410
Sau Oh nu am ajuns în firepit sau Ohno I.

04:01.500 --> 04:08.100
Am facut-o si cand masina mea nu a ajuns la linia de sosire sau am traversat peretele nisipului sau am pierdut jocul de condamnare sau

04:08.100 --> 04:09.340
ceva de genul asta.

04:09.450 --> 04:13.330
Și apoi decide că această întreagă combinație de pași este rău.

04:13.650 --> 04:18.180
Și, prin urmare, pentru acești pași care sunt mai devreme, el are mai multe informații.

04:18.180 --> 04:23.490
Are mai multe cunoștințe ca într-o abordare foarte intuitivă.

04:23.490 --> 04:26.000
Din nou, acesta este un subiect mult mai complex decât îl prezentăm aici.

04:26.010 --> 04:32.370
Dar într-un mod intuitiv, de exemplu, dacă faceți acest pas, acest pas are doar informații pentru a obține acest lucru, aveți

04:32.370 --> 04:34.990
doar informații care vin din această recompensă aici.

04:35.070 --> 04:38.580
Și pentru acest pas în acest caz același pas exact.

04:38.640 --> 04:41.670
Ea are mai multe informații de la care vin informații.

04:41.820 --> 04:45.500
OK, care a fost rezultatul după patru pași sau cinci pași sau orice altceva.

04:45.520 --> 04:51.930
Da, așa este și modul în care funcționează și de ce se numește urmărirea eligibilității deoarece, în timpul acestui proces, nu

04:51.960 --> 04:58.170
numai că se uită la recompensa pe calculator a ceea ce se întâmplă și apoi la pierderea cumulativă și apoi

04:58.200 --> 05:00.460
la tot ceea ce este potrivit.

05:00.620 --> 05:05.210
Dar, de fapt, există o urmă de eligibilitate ca ceea ce se numește incapacitatea de invaliditate.

05:05.210 --> 05:15.440
Există o urmă care este păstrată într-un algoritm care spune OK, așa că dacă obținem o să spunem că primim o pedeapsă obținem o

05:15.470 --> 05:23.060
recompensă negativă, atunci care dintre acești pași este cel mai probabil să fie eligibil pentru această pedeapsă.

05:23.090 --> 05:29.690
Deci, nu numai că știm ce ansamblu întregul model sau combinația școlară de pași, dar ținem și

05:29.690 --> 05:36.350
noi o urmă de eligibilitate care sunt pașii pe care îi vom actualiza dacă îi vom face pe toți.

05:36.350 --> 05:40.970
De exemplu, dacă, ca o recompensă negativă, am putea avea o urmă de eligibilitate care

05:41.030 --> 05:47.360
ne indică faptul că acesta este un pas care este cel mai responsabil pentru ceea ce am obținut în cele

05:47.390 --> 05:54.800
din urmă sau dacă este din nou o recompensă pozitivă, am putea ști că algoritmul ne ajută să ținem evidența acest algoritm de

05:54.830 --> 06:03.170
eligibilitate ne ajută de asemenea să urmărim ce pas sau ce acțiune trebuie să fie eligibil pentru a fi actualizat pe baza recompensei pe care o

06:03.170 --> 06:03.820
primim.

06:03.860 --> 06:05.820
Și de aceea se numește urmărirea eligibilității.

06:06.160 --> 06:11.810
Și astfel, aceasta este intuiția de bază care se află în spatele eligibilității și sperăm că aceste două exemple

06:11.810 --> 06:18.260
ale acestor agenți o fac destul de evidentă sau sunt destul de intuitive în timp ce aceste abilități pot fi atât de puternice.

06:18.440 --> 06:25.760
Și dacă ați promis dacă vreți să continuați să căutați în continuare urme de eligibilitate sau să învățați pas, atunci o

06:26.330 --> 06:31.220
minunată carte uimitoare, pe care o puteți găsi, se numește învățare de întărire.

06:31.220 --> 06:36.590
O introducere este făcută de Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Cred că se află în proces de a crea oa doua ediție sau problema foarte critică.

06:40.790 --> 06:49.210
Dar aceasta este cea mai frecventă, cea mai populară sau cea mai referențiată carte despre învățarea

06:49.260 --> 06:53.050
aplicării, are un număr ridicol de citări.

06:53.300 --> 06:56.630
Cred că sunt zeci de mii dacă nu mă înșel.

06:56.810 --> 07:01.120
Și capitolul de care aveți nevoie pentru acest lucru este capitolul 7.

07:01.130 --> 07:06.900
Deci, pentru a examina opțiunile de eligibilitate, există un capitol întreg despre Capitolul 7.

07:06.920 --> 07:10.100
Poți să citești despre ea și o să fie foarte detaliată.

07:10.220 --> 07:17.660
Redirecționați urme de eligibilitate înapoi și, de asemenea, cum diferența temporală integrală, pe de o parte, și cealaltă parte a spectrului pe care îl

07:17.660 --> 07:23.320
aveți în metodele Monte-Carlo între dvs., au urme de eligibilitate care ar trebui să fie urmărite sau dacă

07:23.330 --> 07:27.280
vă conectați pentru a trece de la diferențele temporale la metodele Monte-Carlo.

07:27.290 --> 07:34.190
Foarte interesant a citi o mulțime de imagini pe care le-am apreciat într-adevăr foarte explicații foarte intuitive.

07:34.250 --> 07:40.550
Deci există o mulțime de lucruri pe care le puteți învăța de la această carte despre inteligența artificială și despre

07:40.550 --> 07:48.230
învățarea de întărire, dar în mod specific, urme de eligibilitate sunt ca un loc foarte bun pentru a merge este această carte pentru urmări

07:48.230 --> 07:49.190
de eligibilitate.

07:49.350 --> 07:57.070
Iar cea de-a doua referință pentru ziua de azi este ceva care vă va arăta în studiile practice învățarea profundă

07:57.440 --> 08:04.460
sau lucrarea profundă a cercetării minții Google cu privire la metodele sincrone pentru o învățare mai profundă a

08:04.550 --> 08:05.120
întăririi.

08:05.270 --> 08:11.270
Da, asta e hârtia care este singura hârtie pe care A-3 o vede în hârtie că vom discuta mai

08:11.270 --> 08:12.240
departe în scor.

08:12.240 --> 08:14.410
Ne apropiem și mai aproape de asta.

08:14.510 --> 08:21.200
Și după cum puteți spune că suntem foarte entuziasmați de acest lucru, astfel încât aceasta va fi în căutarea un

08:21.500 --> 08:28.400
pic despre modul în care au implementat urme de eligibilitate în această lucrare, astfel încât vom folosi mai mult pentru aspectul

08:28.400 --> 08:29.420
practic al lucrurilor.

08:29.420 --> 08:33.650
Deci, sperăm că vă bucurați de tutorialul de astăzi și știți că sunteți puțin mai confortabil cu urmele de eligibilitate și

08:34.010 --> 08:35.920
nu pot să aștept să vă văd data viitoare.

08:35.930 --> 08:37.680
Până atunci, bucurați-vă de a.