WEBVTT

00:00.660 --> 00:03.540
Witam z powrotem na kursie na temat sztucznej inteligencji.

00:03.540 --> 00:08.940
W dzisiejszym tutorialu zajmiemy się dość skomplikowanym samouczkiem o nazwie "Śledzenie uprawnień" i

00:08.940 --> 00:09.500
"krok".

00:09.500 --> 00:14.970
Q learning i to jest coś, co zamierzam wprowadzić w praktyczną stronę rzeczy,

00:14.970 --> 00:21.390
dlatego musimy wyjść z tego tematu i jest to dość złożony temat, więc mamy bardzo interesujące

00:21.690 --> 00:24.880
podejście, aby nas przyspieszyć intuicja za tym.

00:24.890 --> 00:29.760
Więc mam na myśli inne podejście, niż przyzwyczajenie nas do tego prostego spojrzenia i zobaczenia, jak

00:29.760 --> 00:30.560
to działa.

00:30.780 --> 00:34.190
Dlatego chcę dać ci przykład do rozpoczęcia.

00:34.260 --> 00:39.990
Dam wam przykład w tym samouczku, który pokaże moc kwalifikowalności.

00:40.020 --> 00:42.470
I daj nam intuicję za wszystkim.

00:42.540 --> 00:47.880
A jeśli chcesz dalej zagłębić się w cechy kwalifikowalności, dam ci najlepsze miejsce, w którym możesz

00:47.880 --> 00:49.210
o tym przeczytać.

00:49.290 --> 00:52.560
Dam ci odniesienie do książki, ale poza tym.

00:52.560 --> 00:57.120
Tak więc, choć to będzie inne, ponieważ najpierw będziemy to robić, zamiast zagłębiać się

00:57.420 --> 01:01.580
w intuicję, spojrzymy na przykład, a intuicja stanie się oczywista po rozmowie.

01:01.580 --> 01:03.010
I to jest moja nadzieja.

01:03.130 --> 01:03.860
Więc spójrzmy.

01:03.860 --> 01:06.000
Zobaczmy, zobaczmy, czy możemy to zrobić.

01:06.000 --> 01:12.780
Mamy tutaj dwóch agentów, którzy poruszają się w tym samym środowisku i zobaczymy, jak działają te

01:12.780 --> 01:13.740
dwa czynniki.

01:13.740 --> 01:16.260
Najpierw będzie działać z naszym śladem kwalifikowalności.

01:16.260 --> 01:22.230
Drugi będzie pracował z nieczytelnym śladem i miejmy nadzieję, że zobaczymy, dlaczego ten drugi będzie

01:22.230 --> 01:24.450
o wiele potężniejszy od pierwszego.

01:24.630 --> 01:26.240
Więc spójrzmy.

01:26.250 --> 01:28.040
Najpierw przyjrzymy się temu agentowi.

01:28.320 --> 01:34.170
A sposób, w jaki działa, jest dokładnie taki, jak do tej pory omawiany temat głębokiego koła.

01:34.530 --> 01:40.230
Agent podejmie więc krok lub zamierza przenieść ruch działania do nowego stanu.

01:40.260 --> 01:45.480
Dobrze, że otrzymasz pewną nagrodę, to przejdzie przez algorytm lub aktualizację sieci

01:45.480 --> 01:50.610
neuronowej, która uruchamia tego agenta lub działa w umyśle tego agenta.

01:50.610 --> 01:54.870
Więc to jest zasadniczo to, że uczenie się od tego momentu będzie miało nowy krok.

01:54.870 --> 01:59.550
Tak więc od tego nowego stanu podejmie nową akcję w oparciu o to, co jej sieć neuronowa mówi,

01:59.550 --> 02:03.930
że zrobi, że otrzyma nagrody idące w górę i tak dalej i będzie nadal to robić.

02:03.930 --> 02:09.370
To oczywiste, że zrobi to całkiem niezłą robotę i jak widzieliśmy wcześniej od

02:09.400 --> 02:15.450
poprzedniego praktycznego gry Squire do DROs, osiągniemy tutaj całkiem dobre wyniki, ale teraz dodamy nową funkcję.

02:15.480 --> 02:21.380
Teraz ten agent numer dwa, ten facet tutaj, będzie poruszał się w tym samym środowisku.

02:21.570 --> 02:23.770
Co on zamierza wykorzystać czytelność drzew.

02:23.940 --> 02:25.170
I właśnie to oznacza.

02:25.170 --> 02:30.280
To, co on zrobi, to że on podejmie wszelkie kroki, które podejmie w

02:30.300 --> 02:38.730
tym przypadku, że pięć kleszczy zrobi cztery kroki, a dopiero po wykonaniu tych kroków będzie obliczyć całkowitą nagrodę, którą dostał od

02:38.730 --> 02:42.730
tych kroków i będzie przekaż to przez swoją sieć.

02:42.730 --> 02:48.420
Przekaże to poprzez swoją sieć neuronową, która rządzi procesem podejmowania decyzji, a wtedy sieć neuronowa

02:48.420 --> 02:50.690
będzie się z tego uczyć.

02:50.700 --> 02:51.600
Więc który.

02:51.630 --> 02:54.050
Od razu jak Który z nich jest potężniejszy?

02:54.150 --> 02:59.070
Facet, który robi to po prostu krok po kroku i jakby lubił wlepiać w ciemno lub w ciemno i jest

02:59.070 --> 03:01.550
jak OK, więc zrobię krok, by zobaczyć, co się stanie.

03:01.620 --> 03:02.830
Zrób krok, zobacz, co się stanie.

03:02.850 --> 03:03.480
Podjąć kroki.

03:03.480 --> 03:04.020
Co się dzieje.

03:04.020 --> 03:10.680
Facet na górze lub facet, który zajmuje bardzo odważnie Marshę przechodzi cztery kroki z rzędu, a następnie decyduje,

03:11.130 --> 03:17.610
czy to były dobre kroki, czy nie całkiem i dlaczego możesz zobaczyć tutaj lub dlaczego prawdopodobnie masz

03:17.610 --> 03:22.470
poczucie, dlaczego Drugi facet jest lepszy lub jest potężniejszy, ponieważ drugi facet

03:22.470 --> 03:25.160
rzeczywiście wie, co jest na końcu.

03:25.170 --> 03:30.030
Pierwszy facet, kiedy ocenia, czy ten krok jest dobry, czy nie, tylko patrzy na

03:30.030 --> 03:31.170
nagrodę, którą dostaje.

03:31.280 --> 03:34.430
Dlatego kieruje się jedynie nagrodą, jaką daje mu otoczenie.

03:34.440 --> 03:39.570
To samo jest tutaj, gdy kieruje się tylko nagrodą, którą to środowisko daje mu tutaj.

03:39.620 --> 03:46.490
Za każdym razem, gdy jest to jego jedyny rodzaj kompasu, który ma nagrodę, nagrodą jest nagroda.

03:46.560 --> 03:51.800
Podczas gdy on rzeczywiście może ocenić po podjęciu kroków, które może ocenić.

03:51.820 --> 03:53.960
OK, więc dotarłem do mety.

03:54.000 --> 03:56.640
Ta kombinacja kroków była dobra.

03:56.700 --> 03:57.680
Wszystkie były dobre.

03:57.840 --> 04:01.410
Lub O nie, skończyłem w palenisku lub Ohno I.

04:01.500 --> 04:08.100
Zrobiłem to, a kiedy mój samochód nie dotarł do mety, przekroczyłem ścianę z piasku lub przegrałem

04:08.100 --> 04:09.340
grę w los.

04:09.450 --> 04:13.330
A potem decyduje, że cała ta kombinacja kroków jest zła.

04:13.650 --> 04:18.180
I dlatego dla tych kroków, które są wcześniej, ma więcej informacji.

04:18.180 --> 04:23.490
Ma więcej wglądów, jak w bardzo intuicyjnych podejściach.

04:23.490 --> 04:26.000
Znowu jest to o wiele bardziej złożony temat, niż przedstawiamy tutaj.

04:26.010 --> 04:32.370
Ale w intuicyjny sposób, na przykład, jeśli zrobisz ten krok, ten krok ma tylko informacje, które pozwolą ci je uzyskać,

04:32.370 --> 04:34.990
i tutaj otrzymujesz tylko informacje z tej nagrody.

04:35.070 --> 04:38.580
I w tym przypadku w tym przypadku ten sam dokładny krok.

04:38.640 --> 04:41.670
Ma więcej informacji, od których pochodzą informacje.

04:41.820 --> 04:45.500
OK, więc jaki był wynik po czterech krokach, pięciu krokach lub cokolwiek innego.

04:45.520 --> 04:51.930
Tak, tak to właśnie działa i dlaczego nazywa się to zakwalifikowaniem, ponieważ podczas tego procesu nie

04:51.960 --> 04:58.170
tylko patrzy na nagrodę komputerową tego, co się dzieje, a następnie na skumulowaną stratę, a następnie

04:58.200 --> 05:00.460
na wszystko, co jest właściwe.

05:00.620 --> 05:05.210
Ale tak naprawdę istnieje ślad kwalifikowalności jako coś, co nazywa się zaufaniem dla osób niepełnosprawnych.

05:05.210 --> 05:15.440
Jest ślad utrzymywany w algorytmie, który mówi OK, więc jeśli dostaniemy, powiedzmy, że dostaniemy karę, otrzymujemy ujemną nagrodę,

05:15.470 --> 05:23.060
a następnie który z tych kroków najprawdopodobniej kwalifikuje się do tej kary.

05:23.090 --> 05:29.690
Więc nie tylko wiemy, jaki jest ogólnie ten cały wzorzec, czy szkolna

05:29.690 --> 05:36.350
kombinacja kroków, ale zachowujemy także ślad kwalifikowalności, które kroki będziemy aktualizować, jeśli zdobędziemy wszystkich.

05:36.350 --> 05:40.970
Na przykład, jeśli jako negatywna nagroda możemy mieć ślad kwalifikowalności,

05:41.030 --> 05:47.360
który wskazuje nam, że jest to krok, który jest najbardziej odpowiedzialny za to, co otrzymaliśmy

05:47.390 --> 05:54.800
w końcu lub jeśli jest to pozytywna nagroda, możemy ponownie wiedzieć, że algorytm pomaga nam śledzić ten

05:54.830 --> 06:03.170
algorytm kwalifikowalności pomaga nam również śledzić, jaki krok lub jakie działania muszą być uprawnione do aktualizacji na podstawie otrzymanej

06:03.170 --> 06:03.820
nagrody.

06:03.860 --> 06:05.820
I dlatego nazywa się to śladem kwalifikowalności.

06:06.160 --> 06:11.810
I to jest podstawowa intuicja kryjąca się za kwalifikowalnością i mam nadzieję, że te dwa

06:11.810 --> 06:18.260
przykłady tych agentów czynią to dość oczywistym lub całkiem intuicyjnym, podczas gdy te zdolności mogą być tak potężne.

06:18.440 --> 06:25.760
A jeśli tak, jak obiecałbyś, jeśli chcesz zagłębić się dalej w aktualne ślady kwalifikowalności lub krok po

06:26.330 --> 06:31.220
kroku, wspaniała książka, którą możesz znaleźć, nazywa się uczeniem się wzmacniającym.

06:31.220 --> 06:36.590
Wprowadzenie to Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Myślę, że są w trakcie tworzenia drugiego wydania lub bardzo krytycznego problemu.

06:40.790 --> 06:49.210
Ale jest to najpopularniejsza lub najbardziej popularna lub najczęściej cytowana książka na temat egzekwowania

06:49.260 --> 06:53.050
prawa, zawierająca niedorzeczną liczbę cytowań.

06:53.300 --> 06:56.630
Myślę, że jak dziesiątki tysięcy, jeśli się nie mylę.

06:56.810 --> 07:01.120
A także rozdział, którego potrzebujesz do tego, to Rozdział 7.

07:01.130 --> 07:06.900
Aby spojrzeć na wybór kwalifikowalności, istnieje cały rozdział poświęcony Rozdziałowi 7.

07:06.920 --> 07:10.100
Możesz przeczytać o tym i idzie na wiele szczegółów.

07:10.220 --> 07:17.660
Wskaźniki kwalifikujące Forward Backward, a także jak integralną różnicę czasową na jednej ręce i na drugim końcu

07:17.660 --> 07:23.320
spektrum mają metody Monte-Carlo pomiędzy użytkownikami, które mają ślady kwalifikowalności rzekome lub link,

07:23.330 --> 07:27.280
aby przejść od różnic czasowych do metod Monte-Carlo.

07:27.290 --> 07:34.190
Bardzo ciekawe przeczytałem wiele zdjęć, które naprawdę doceniłem bardzo intuicyjne wyjaśnienia.

07:34.250 --> 07:40.550
Jest wiele rzeczy, które możesz nauczyć się z tej książki o sztucznej inteligencji i uczeniu

07:40.550 --> 07:48.230
się o wzmocnieniu, ale konkretne ślady kwalifikowalności są jak bardzo dobrym miejscem, do którego należy się udać, to książka o

07:48.230 --> 07:49.190
śladach kwalifikowalności.

07:49.350 --> 07:57.070
Drugie odniesienie na dziś to coś, co pokaże Wam w praktycznych próbach głębokiego uczenia się lub

07:57.440 --> 08:04.460
artykułu badawczego o głębokim umyśle Google dotyczącego metod synchronicznych do głębszego uczenia się

08:04.550 --> 08:05.120
wzmacniania.

08:05.270 --> 08:11.270
Tak, to jest ten papier, który jest papierem, który A-3 zobaczy papier, który będziemy dyskutować dalej

08:11.270 --> 08:12.240
w partyturze.

08:12.240 --> 08:14.410
Zbliżamy się do tego.

08:14.510 --> 08:21.200
Jak można się przekonać, jesteśmy bardzo podekscytowani, więc będzie to wyglądało trochę na temat tego,

08:21.500 --> 08:28.400
w jaki sposób wprowadzili ślady kwalifikowalności w tym dokumencie, więc zamierzamy użyć tego bardziej do praktycznej

08:28.400 --> 08:29.420
strony rzeczy.

08:29.420 --> 08:33.650
Miejmy nadzieję, że podobał Ci się dzisiejszy samouczek i wiesz, że czujesz się lepiej ze śladami kwalifikowalności i nie

08:34.010 --> 08:35.920
mogę się doczekać, aby zobaczyć cię następnym razem.

08:35.930 --> 08:37.680
Do tego czasu ciesz się.
