WEBVTT

00:00.330 --> 00:05.990
Bună ziua și bun venit la acest tutorial în Statoil de astăzi vom sincroniza cu modelul partajat.

00:06.150 --> 00:13.370
Deci, ceea ce vom face este să trimiteți funcția, desigur, și apoi să inițializați durata unui

00:13.380 --> 00:13.980
episod.

00:14.190 --> 00:22.020
Așa că vom numi episodul unui episod și lungimea acestui nucleu pe care îl vom duce și îl

00:22.020 --> 00:23.800
vom inițializa la zero.

00:23.880 --> 00:27.280
Dar atunci această lungime prezentă va fi incrementală.

00:27.570 --> 00:30.450
Și vorbind despre creșteri în faptul că este exact ceea ce vom face.

00:30.660 --> 00:40.600
Așa că vom folosi o bucla în timp și vom folosi acest truc pentru a spune în timp ce adevăratul Kallen va repeta ceea ce se va întâmpla

00:40.600 --> 00:43.840
acum ce se va întâmpla în interiorul acestei lumi.

00:44.160 --> 00:49.360
Și astfel, primul lucru care se va întâmpla în această buclă este această creștere a lungimii

00:49.360 --> 00:50.070
unui episod.

00:50.260 --> 00:56.900
Deci, primul lucru pe care o vom face este incrementat cu 1 și pentru a face acest lucru putem pur

00:57.010 --> 01:02.680
și simplu să luăm lungimi de episod și să adăugăm aici plus este egal cu 1.

01:03.200 --> 01:06.440
Și acum ne vom sincroniza cu cota mai mult.

01:06.560 --> 01:13.520
Asta inseamna ca acum ca agentul va obtine va folosi modelul partajat pentru a-si face putin explorarea pe

01:13.700 --> 01:18.730
un anumit numar de pasi si cum va obtine modelul acest model comun.

01:18.860 --> 01:27.710
Ei bine, trebuie să ne luăm moralul și apoi să folosim metoda lui Dick de încărcare, pentru că o vom

01:27.710 --> 01:37.310
folosi pentru a obține dicționarul de stat al modelului nostru comun, astfel încât trebuie să punem mai întâi modelul partajat și

01:37.310 --> 01:41.870
apoi să aplicăm metoda statică obțineți parametrii modelului partajat.

01:41.900 --> 01:48.500
Și așa modelul nostru va primi modelul comun pentru micul său explorare.

01:48.500 --> 01:53.670
Iar odată ce modelul primește acest model comun, trebuie să distingem două cazuri.

01:53.840 --> 02:03.280
Primul este dacă se face înțeles dacă jocul se face astfel încât jocul se face atunci ce se întâmplă în acel caz.

02:03.530 --> 02:09.840
Ei bine, trebuie să re-inițializăm stările ascunse și stările celulare ale LSD și ale mall-ului.

02:09.950 --> 02:17.510
Și de aceea o să iau Vezi X statele celulare și, de asemenea, vârsta X stările ascunse și voi

02:17.510 --> 02:21.030
reinițializa cărțile și cum o să le reinițializați.

02:21.170 --> 02:29.080
Ei bine, cu numai zero, va exista un vector de 256 de zerouri, deoarece amintiți-vă ieșirile restului.

02:29.270 --> 02:31.770
După cum am menționat 1 și 256.

02:31.820 --> 02:38.970
Deci, vom merge noi vom initializa-le folosind biblioteca lanterna, apoi funcția zero.

02:39.170 --> 02:46.730
Și din moment ce dorim un vector de 256 de zerouri, vom auzi dimensiunile unuia pentru vector și 256

02:46.730 --> 02:51.560
pentru numărul de elemente care vor fi zero și apoi vom merge.

02:51.770 --> 02:58.570
Dar atunci vom transforma asta într-un toriu Voivod, pentru că atunci vor fi calculate niște gradienți.

02:58.640 --> 03:02.000
Așa că trebuie să integrăm acest lucru cu un gradient.

03:02.030 --> 03:02.510
In regula.

03:02.540 --> 03:09.860
Și vom face același lucru și pentru statele ascunse de mai jos și le vom analiza cu adevărat în același mod.

03:09.980 --> 03:10.680
Vom merge acolo.

03:10.790 --> 03:13.050
Deci, dacă se termină jocul.

03:13.360 --> 03:20.810
Și acum celălalt caz pe care îl putem accesa cu altceva decât ceea ce se întâmplă în acel caz.

03:20.990 --> 03:27.270
Ei bine, vom păstra vechile state ale celulelor și mizele ascunse și astfel foarte ușor

03:27.270 --> 03:37.910
putem păstra cele vechi în acest fel prin tastarea a se vedea X este egală cu variabila cx acele date și aceleași pentru că în Statele

03:39.050 --> 03:45.580
putem pur și simplu adăuga aici H x este egal variabila xx că datele sunt la.

03:45.650 --> 03:46.570
Lucru bun făcut.

03:46.580 --> 03:52.880
Acum putem ieși din altceva pentru că suntem în general făcuți cu aceste două cazuri, fie că jocul se termină,

03:52.910 --> 03:58.340
fie că nu, dar rămânem în buclă, pentru că acum vom face mai multe lucruri care

03:58.340 --> 04:00.450
în principiu sunt toate formarea proces.

04:00.530 --> 04:05.960
Și deci ceea ce vom face acum este să inițializăm câteva variabile care vor fi

04:06.050 --> 04:07.990
în centrul calculelor din curs.

04:08.180 --> 04:13.660
Deci, să facem acest lucru, vom avea nevoie de valorile pe care le amintim este rezultatul criticului.

04:13.790 --> 04:15.170
Aceasta este funcția.

04:15.170 --> 04:17.850
Și le vom inițializa ca un cuib gol.

04:17.960 --> 04:22.790
În acest fel vom avea nevoie de probabilitatea de a luga.

04:22.930 --> 04:27.570
Deci probele de noroc și-l vom inițializa, de asemenea, ca o listă goală.

04:27.590 --> 04:33.540
Apoi, desigur, vom avea nevoie de toate cuvintele pe care le vom inițializa, de asemenea, ca o listă goală.

04:33.650 --> 04:38.810
Și în cele din urmă vom avea nevoie de entropia este ceva nou.

04:38.960 --> 04:43.240
Dar aceasta este într-adevăr în centrul condițiilor de antrenament.

04:43.280 --> 04:45.120
Deci, până la fel de bine.

04:45.170 --> 04:50.690
Deci, acum că inițializăm aceste patru variabile putem începe o nouă buclă FOR și apoi această

04:50.690 --> 04:53.350
nimfă va actualiza valorile acestor patru variabile.

04:53.420 --> 04:59.330
Și astfel, acest nou Foluke va fi un circuit complet peste etapele de expirare și, prin urmare, variabila

04:59.330 --> 05:01.530
de buclă va fi pașii noștri.

05:01.550 --> 05:11.570
Deci, pentru un pas în gamă și în interior, putem pune în mod direct probabil punct non-stop, deoarece parametrul în unele pași

05:11.660 --> 05:15.170
este exact numărul de pași ai accelerației.

05:15.170 --> 05:19.190
Deci, pentru toate etapele accelerației Ce facem.

05:19.370 --> 05:22.690
Ei bine, vom obține previziunile modelului.

05:22.740 --> 05:28.730
Acum, ceea ce este returnat de model și pentru a obține aceste predicții putem pur și simplu să luăm modelul și

05:28.730 --> 05:33.670
să îl aplicăm la intrările pe care semnalul de intrare îl trece prin creierul din model.

05:33.830 --> 05:39.020
Și asta ne va da rezultatele, dar vom obține mai multe rezultate pe care le știi că

05:39.020 --> 05:42.010
ne vor aduce valorile funcției care este rezultatul criticului.

05:42.200 --> 05:48.560
Apoi, q-ul califică QSA care este ieșirea actorului dar, de asemenea, nu uitați că va scoate

05:48.680 --> 05:54.830
deasemenea vârfurile stărilor Doheny și ale stărilor mici, deoarece amintiți-vă dacă revenim la modelul nostru

05:54.830 --> 06:00.230
bine în funcția de transmitere și putem vedea că într-adevăr returnează rezultatul criticului.

06:00.320 --> 06:08.090
Aceasta este valoarea funcției da, atunci producția actorului care dintre valorile cubului QSA și, de asemenea, ieșirea CM care

06:08.090 --> 06:14.930
este această verificare dublă și a se vedea X apoi statele și statele de celule.

06:14.930 --> 06:16.910
Deci, trebuie să fim atenți la asta.

06:16.910 --> 06:22.310
Acest lucru este destul de diferit de ceea ce sa întâmplat înainte și, prin urmare, acum le vom aplica

06:22.310 --> 06:24.470
pe toate la inputurile care sunt statul.

06:24.530 --> 06:28.020
Dar acum există câteva lucruri de făcut care sunt legate de tortură.

06:28.030 --> 06:31.130
Dar asta dă, desigur, putere la ceea ce facem.

06:31.190 --> 06:39.920
Primul lucru pe care trebuie să-l facem este să stoarcem în stări pentru a adăuga această dimensiune care trebuie să aibă

06:39.920 --> 06:40.880
indicele 0.

06:40.910 --> 06:47.080
Acest lucru se datorează faptului că modelul poate accepta doar un lot de intrări și nu un scop singur în vector sau intense.

06:47.240 --> 06:53.320
Acesta este primul lucru pe care trebuie să-l facem și stoarcem, dar atunci nu este tot ce avem nevoie

06:53.360 --> 06:58.950
pentru a transforma stările noastre de intrare într-o torță voidabilă și așa am și eu aici.

06:59.180 --> 07:05.660
Deci, acum suntem cu statul poliției de stat, dar nu uitați că intrările celor patru funcții sunt de fapt

07:05.660 --> 07:06.990
imaginea de intrare.

07:06.990 --> 07:14.660
Asta ne-am ocupat, dar, de asemenea, acest tip de vârstă X statele și statele de celule și, prin urmare, trebuie

07:14.900 --> 07:16.500
să adăugăm aici.

07:16.610 --> 07:23.160
Această a doua parte a intrării cu recursul său de vârstă X și 6.

07:23.190 --> 07:23.690
In regula.

07:23.730 --> 07:26.410
Și trebuie să luăm paranteza.

07:26.430 --> 07:32.550
Acolo vom merge avem două intrări noastre primul este stările de intrare care este imaginile de intrare toate convertite

07:32.550 --> 07:38.580
în spre variabilă și stoarse pentru a adăuga această dimensiune falsă a lotului și ei se opresc toate statele

07:38.760 --> 07:40.260
și statele de Sud.

07:40.440 --> 07:41.630
Deci suntem cu toții bine să mergem.

07:41.670 --> 07:43.890
Suntem pregătiți să obținem predicțiile noastre.

07:44.100 --> 07:46.360
Și acum de la această întoarcere.

07:46.500 --> 07:52.530
Ei bine, cele trei previziuni ale producției criticului până la actor și în partea superioară a

07:52.530 --> 07:54.430
tuturor restaurărilor impuse de CME.

07:54.630 --> 07:59.840
Ei bine, vom introduce trei noi variabile care vor elibera trei ieșiri.

07:59.910 --> 08:05.380
Deci, primim prima ieșire este valoarea funcției V care este rezultatul criticului.

08:05.520 --> 08:07.960
Deci o să spunem asta.

08:08.490 --> 08:08.960
Așa că mergem.

08:08.970 --> 08:10.250
Aceasta este prima ieșire.

08:10.350 --> 08:14.630
Apoi, a doua ieșire va fi ieșirea actorului.

08:14.760 --> 08:16.820
Și asta sunt valorile Q QSA.

08:17.130 --> 08:24.570
Dar, deoarece valorile q sunt asociate acțiunilor, le putem numi și valorile de acțiune.

08:24.690 --> 08:25.550
In regula.

08:25.710 --> 08:28.850
Și apoi găsiți o ieșire returnată de mâine.

08:28.920 --> 08:37.380
Acesta este dublul taxei ascunse la vânzări, iar statele de celule văd X și apoi mergem, avem trei ieșiri

08:37.620 --> 08:40.110
returnate de ele, toate perfecte.

08:40.110 --> 08:45.750
Deci, acum că avem suplimentele, trebuie să folosim un Max soft pentru a juca acțiunea potrivită.

08:45.750 --> 08:48.560
Și așa că acum va fi exact același lucru cu ceea ce am făcut înainte.

08:48.600 --> 08:57.320
Următorul pas este să ne obținem probabilitățile astfel încât să le putem apela și de acolo unde am folosit metoda

08:57.320 --> 09:05.570
Max, pe care o luăm de la modulul funcțional care are o lovitură la ff care a durut Max

09:05.570 --> 09:12.270
și care va genera o distribuție a probabilităților de intrare pe care o vom pune

09:12.290 --> 09:19.150
acum și care, desigur, valorile reale care sunt valorile q care sunt ieșirile actorului din model.

09:19.220 --> 09:25.070
Ocazional avem probabilitățile noastre, dar pe măsură ce ați observat că vom lucra cu

09:25.130 --> 09:31.280
entropia și împreună entropia nu ar conduce numai probabilitățile, ci și probabilitățile LUGG, deoarece

09:31.280 --> 09:37.280
entropia este suma produsului Lucke prob. ori toate acestea multiplicate cu minus 1.

09:37.400 --> 09:46.420
Deci, de asemenea, avem nevoie de dragostea noastră, care va fi generată de LUGG soft max.

09:46.460 --> 09:51.580
Așadar, în loc să luăm o distribuție a probabilităților, vom face o distribuție

09:51.860 --> 10:01.260
a probabilităților și asta o facem cu LUGG răsturnat bate funcția Optimax pentru a spune că aplicăm la cubul și utilizarea pe care o

10:02.500 --> 10:04.490
numim valori de acțiune.

10:04.500 --> 10:07.520
În regulă, acum avem problema și blocarea.

10:07.600 --> 10:11.700
Și astfel suntem pregătiți să obținem entropia și entropia.

10:12.250 --> 10:13.680
Care este formula pentru asta.

10:13.780 --> 10:19.830
După cum am menționat deja, luăm promptitudinea pe care o multiplicăm cu produsul.

10:20.200 --> 10:28.250
Apoi vom lua o sumă de toate astea și pentru a face acest lucru putem adăuga aici că unul dintre noi de fapt folosim strada

10:28.250 --> 10:29.920
de mai multe ori acum.

10:30.230 --> 10:33.500
Și așa cum am spus noi multiplicăm acest lucru cu minus 1.

10:33.740 --> 10:37.150
Deci este minusul sumei produsului.

10:37.170 --> 10:38.600
De multe ori.

10:39.140 --> 10:39.750
Perfect.

10:39.860 --> 10:45.380
Și acum vom stoca această entropie care tocmai a fost calculată în lista noastră de entropie.

10:45.650 --> 10:48.550
Acolo vom avea ultimul calcul al entropiei.

10:48.590 --> 10:53.660
Așa că trebuie să-l stocăm în lista de entropii și să nu facem nimic mai simplu,

10:53.660 --> 10:57.450
vom folosi funcția de adăugare, desigur, deoarece entropiile sunt o listă.

10:57.500 --> 11:04.790
Așa că luăm lista de entropii, apoi începem și folosim funcția append pentru a

11:04.790 --> 11:06.550
adăuga entropia calculată.

11:06.560 --> 11:08.440
Bine, deci o să facem o pauză acum.

11:08.450 --> 11:14.210
Vom face acest pas cu pas în povestea următoare va juca acțiunea luând o remiză aleatorie

11:14.360 --> 11:16.740
a acestei distribuții generate de probabilități.

11:17.030 --> 11:22.310
Și după ce vom juca acțiunea, vom obține valoarea acestui stat și în cele din urmă vom

11:22.310 --> 11:24.310
stoca noua noastră rată de tranziție.

11:24.360 --> 11:29.430
Și așa va fi un nou pas mare și vom termina acest lucru în următorul obstacol.

11:29.570 --> 11:31.020
Până atunci