WEBVTT

00:00.510 --> 00:02.990
Cześć i witamy w tutorialu Python.

00:03.240 --> 00:08.400
W porządku, więc teraz zrobimy funkcję do przodu, która będzie propagować sygnały wyjściowe naszego mózgu

00:08.400 --> 00:13.550
do ciała sztucznej inteligencji, tak aby odegrał właściwą akcję, aby dotrzeć do kamizelki.

00:13.770 --> 00:20.100
Ale nie ma jeszcze reakcji, ponieważ nie ma treningu, który nie wyszkoliłbyśmy jeszcze SI, ale to

00:20.100 --> 00:25.920
jest właśnie to, co zrobimy częściowo, aby wprowadzić w głębokim splotu kurinię, którą przy

00:25.920 --> 00:29.720
okazji zmieniam nazwę szkolenia AI z głęboko splotowym Killary.

00:29.940 --> 00:35.340
Ale teraz musimy przekazać sygnał z warstwy wyjściowej mózgu do ciała.

00:35.370 --> 00:40.170
I właśnie to zamierzamy zrobić z tą funkcją przodu, która jest ostatnią funkcją naszego

00:40.170 --> 00:40.670
ciała.

00:41.420 --> 00:42.860
Zróbmy to.

00:42.860 --> 00:50.140
Zaczynamy od Teff do przodu i według ciebie, jakie argumenty podejmie.

00:50.330 --> 00:55.030
Cóż, najpierw weźmie ona siłę, a potem kolejną.

00:55.220 --> 00:56.740
Cóż, tak, jest.

00:56.870 --> 00:58.140
I co to będzie.

00:58.310 --> 01:04.700
Cóż, bardzo naturalnie chcemy przekazać sygnał wyjściowy mózgu do ciała i dlatego sygnał

01:04.700 --> 01:07.470
wejściowy będzie sygnałem wyjściowym mózgu.

01:07.850 --> 01:10.480
Teraz musimy nadać nazwę tym zewnętrznym sygnałom.

01:10.610 --> 01:14.390
A więc dodam tu argument.

01:14.460 --> 01:21.200
W porządku, co odpowiada sygnałom wyjściowym mózgu po tym, jak obrazy wejściowe są propagowane przez cały mózg,

01:21.200 --> 01:26.540
aby dotrzeć do wyjścia później, co jest tutaj zwracane przez X przez funkcję przodu

01:26.540 --> 01:27.170
mózgu.

01:27.380 --> 01:32.480
A teraz ten sygnał wyjściowy mózgu zostanie przekazany do ciała za pomocą tej nowej

01:32.480 --> 01:35.410
funkcji do przodu, którą wykonujemy w następnej klasie.

01:35.460 --> 01:41.760
Zróbmy teraz trochę kolorów tu i teraz, ponieważ zrozumieliście, że użyjemy kolejnej metody

01:41.870 --> 01:43.940
soughed do odegrania akcji.

01:43.940 --> 01:49.820
Oznacza to, że ciało naszej sztucznej inteligencji po otrzymaniu sygnałów wyjściowych mózgu odtworzy

01:49.820 --> 01:51.440
działania następną techniką.

01:51.440 --> 01:56.510
Zasadniczo to, co musimy zrobić, jest dokładnie takie samo, jak to, co zrobiliśmy dla samochodu.

01:56.600 --> 01:59.390
Zamierzamy uzyskać naszą dystrybucję prawdopodobieństw.

01:59.540 --> 02:05.960
To pierwszy krok, a następnie spróbujemy wykonać akcję zgodnie z tym rozkładem prawdopodobieństw.

02:05.960 --> 02:11.510
Tak więc, co możemy teraz zrobić, to uzyskać plik do samodzielnego prowadzenia samochodu i skopiować wklejenie tego,

02:11.510 --> 02:14.570
co zaimplementowaliśmy do wyboru, faktycznie działa w samobieżnym samochodzie.

02:14.810 --> 02:15.700
Ale zróbmy to jeszcze raz.

02:15.710 --> 02:19.710
To będzie dobra praktyka i właściwie możesz spróbować wpisać ją przede mną.

02:20.150 --> 02:23.870
OK, więc najpierw musimy ustalić nasze prawdopodobieństwa.

02:23.870 --> 02:29.930
Przypominam, że jest to rozkład prawdopodobieństw dla każdej z wartości q, które zależą od obrazu

02:29.960 --> 02:31.790
wejściowego i każdej akcji.

02:31.790 --> 02:38.120
Mamy więc jedną kluczową wartość dla każdego z sześciu lub siedmiu możliwych działań, a zatem otrzymujemy rozkład

02:38.120 --> 02:43.600
siedmiu prawdopodobieństw, a następnie 7, ponieważ myślę, że istnieje siedem działań zamiast sześciu.

02:43.670 --> 02:50.010
Ponieważ oprócz poruszania się w lewo w prawo lub w strzelaniu możemy również uruchomić, co daje

02:50.420 --> 02:57.260
siedem możliwych akcji, a zatem otrzymujemy rozkład siedmiu prawdopodobieństw po jednym dla każdej wartości q związanej z każdą akcją.

02:57.260 --> 02:58.930
Więc Propst jest równy.

02:59.040 --> 03:00.670
A teraz pamiętaj, co musieliśmy zrobić.

03:00.860 --> 03:06.650
Zasadniczo musimy korzystać z funkcji soughed max z modułu funkcjonalnego.

03:06.680 --> 03:13.010
To bardzo proste, że najpierw korzystamy z naszego modułu funkcjonalnego, a następnie wykonujemy naszą następną funkcję

03:13.130 --> 03:13.700
soughed.

03:13.700 --> 03:14.480
Oto jest.

03:14.570 --> 03:22.430
Naciskamy enter, a teraz umieszczamy argumenty następnej funkcji, którą przypominam, elementy, dla których

03:22.430 --> 03:25.290
chcesz utworzyć rozkład prawdopodobieństw.

03:25.550 --> 03:30.560
I to jest oczywiście q wartości, które są wyjściami sieci neuronowej.

03:30.680 --> 03:35.830
To jest wynik sieci neuronowej, dla której chcesz utworzyć rozkład prawdopodobieństw.

03:35.990 --> 03:41.270
Przypomnijmy, że chcemy stworzyć ten rozkład prawdopodobieństw, aby móc badać różne akcje

03:41.270 --> 03:45.760
zamiast wybierać bezpośrednio te, które mają maksymalną wartość Q.

03:46.010 --> 03:51.020
Jeśli bezpośrednio wybierzemy ten, który ma maksymalną wartość Q, gdzie nie badamy zbyt wiele innych działań

03:51.350 --> 03:52.650
i możemy coś przegapić.

03:52.880 --> 03:58.760
Ale z tą złudną kolejną metodą możemy zrobić więcej eksploracji i dlatego może znaleźć jakieś ukryte rozwiązania

03:58.760 --> 04:01.520
w wzorcach, które mogą być znacznie lepsze.

04:01.850 --> 04:08.060
Więc ponownie bardzo polecam rzeczy Nax, a od teraz musimy wprowadzić wartości, które są

04:08.060 --> 04:09.560
naszym wynikiem tutaj.

04:09.560 --> 04:13.860
Wyjścia naszego mózgu dają nam to, do czego zmierzamy.

04:13.970 --> 04:21.710
Ale wtedy mamy ten parametr temperatury, który możemy wykorzystać, abyśmy mogli skonfigurować, aby dostosować eksplorację.

04:21.710 --> 04:28.130
Pamiętaj, że im wyżej ustawimy temperaturę, tym mniej eksploracji innych akcji zrobi, ponieważ najlepsze działanie

04:28.130 --> 04:33.260
zostanie wybrane z większym prawdopodobieństwem, w przeciwieństwie do innych działań, które

04:33.260 --> 04:35.910
zostaną wybrane z mniejszymi prawdopodobieństwami.

04:35.930 --> 04:42.620
Dokładnie tak, jak w samochodzie, dlatego musimy pomnożyć wynik przez nasz parametr

04:43.010 --> 04:51.800
temperaturowy t, że jesteśmy idealni, teraz dostajemy małe ostrzeżenie, ponieważ nie używaliśmy jeszcze prepsów, ale zamierzamy go

04:51.810 --> 04:53.220
teraz użyć.

04:53.260 --> 04:55.540
I to prowadzi nas do następnej rzeczy, którą musimy zrobić.

04:55.540 --> 04:57.750
Jak zamierzamy wykorzystać te prawdopodobieństwa.

04:57.910 --> 05:04.390
Cóż, będziemy próbować ostatecznej akcji, aby grać z tego rozkładu prawdopodobieństw, a zatem

05:04.990 --> 05:10.960
musimy teraz użyć funkcji wielomianowej, aby wypróbować akcję zgodnie z tym

05:10.960 --> 05:12.080
rozkładem prawdopodobieństw.

05:12.370 --> 05:15.030
Teraz jesteśmy gotowi, aby uzyskać nasze działania.

05:15.190 --> 05:20.500
Dlatego tworzę nowego wojewodę, ponieważ stanie się to działaniem, które będzie odgrywane przez ciało naszej

05:20.500 --> 05:21.490
sztucznej inteligencji.

05:21.520 --> 05:30.330
I tak bierzemy teraz naszą dystrybucję prob prawdopodobieństw, do których dodajemy kropki, a następnie metodę

05:30.880 --> 05:31.480
wieloraką.

05:32.220 --> 05:38.030
W porządku, a teraz otrzymujemy nasze ostatnie akcje do grania z naszej dystrybucji rekwizytów.

05:38.430 --> 05:39.570
W porządku, doskonale.

05:39.570 --> 05:42.300
Teraz byliśmy gotowi, aby zwrócić to, co chcemy.

05:42.360 --> 05:44.450
To jest akcja do grania.

05:44.670 --> 05:48.720
A to są oczywiście działania, a teraz ostrzeżenie powinno zniknąć.

05:48.840 --> 05:50.440
Używamy wszystkiego, co chcemy.

05:50.460 --> 05:51.270
No to jedziemy.

05:51.270 --> 05:52.020
Idealny.

05:52.210 --> 05:53.950
Teraz funkcja przekazania jest gotowa.

05:54.080 --> 05:55.740
I gratulacje.

05:55.800 --> 05:57.300
Ciało jest również gotowe.

05:57.540 --> 05:59.070
Więc teraz mamy swój mózg.

05:59.190 --> 06:05.760
Mamy nasze ciało i dlatego jesteśmy gotowi je zmontować, aby stworzyć przyszłą SI, naszą przyszłą SI, złożoną

06:05.760 --> 06:08.900
z niczego innego niż mózg i ciało.

06:08.970 --> 06:14.160
A zatem to właśnie inteligencja i ciało mają odgrywać działania, które będą odpowiednie

06:14.160 --> 06:16.610
do działania dzięki jego inteligencji.

06:16.620 --> 06:22.060
Ale pamiętaj, zanim będziemy musieli wyszkolić jego inteligencję i to właśnie zrobimy po części,

06:22.070 --> 06:25.180
aby wyszkolić oko w splotowym, fajnym uczeniu się.

06:25.200 --> 06:25.500
W porządku.

06:25.500 --> 06:28.470
Zróbmy więc sztuczną inteligencję w następnych kłopotach.

06:28.490 --> 06:31.810
Znów będzie to klasa dwóch funkcji.

06:31.950 --> 06:34.510
Tak więc ten wymaga dwóch lub trzech samouczków.

06:34.680 --> 06:35.660
Więc nie mogę się doczekać.

06:35.670 --> 06:36.780
To będzie ekscytujące.

06:36.780 --> 06:37.930
I do tego czasu I.