WEBVTT

00:00.600 --> 00:02.360
Hola y bienvenidos a la historia

00:02.520 --> 00:07.920
Ahora vamos a hacer el ciclo for para calcular la pérdida de política y la pérdida de valor,

00:07.920 --> 00:13.260
y una vez que tengamos estas dos lecciones, podremos usar nuestro optimizador para colocar cigarrillos en la

00:13.260 --> 00:14.820
arena para reducir las pérdidas.

00:14.820 --> 00:15.990
Está bien así que ahí vamos.

00:15.990 --> 00:22.740
Comenzamos aquí por cierto en el tutorial anterior implementamos esta sección y olvidé eliminar las

00:22.740 --> 00:24.280
sangrías, lo siento.

00:24.420 --> 00:28.210
Así que comenzar desde aquí no es en el otoño.

00:28.530 --> 00:32.650
Y ahora estamos comenzando un nuevo ciclo completo, así que empiezo aquí con cuatro.

00:32.840 --> 00:38.340
Y ahora lo que vamos a hacer es comenzar desde el último paso que se realizó durante la exploración y

00:38.670 --> 00:40.420
vamos a retroceder en el tiempo.

00:40.470 --> 00:51.250
Entonces, es por eso que lo estoy haciendo en recompensas de tierras de rango invertido. Las mayores recompensas son las menos importantes.

00:51.260 --> 00:57.000
Y dado que cada paso de la exploración está asociado a donde trabajamos porque en cada paso obtenemos

00:57.230 --> 00:58.400
recompensa cuando luego hablamos.

00:58.400 --> 01:05.090
Es este número de pasos y este reverso aquí se usa para que podamos retroceder en el tiempo para que vayamos.

01:05.160 --> 01:10.890
lo que vamos a hacer es actualizar la recompensa acumulativa que está lejos y vamos a actualizarla de esta manera.

01:10.890 --> 01:11.570
Y ahora

01:11.640 --> 01:14.110
Eso es realmente lo mismo que hicimos con Doom.

01:14.170 --> 01:23.280
Es igual a gamma que obtenemos de nuestros parámetros y tomando de los primeros programas que no son mucho más

01:24.060 --> 01:31.290
la recompensa de esto que podemos obtener tomando la menor recompensa y tomando el índice.

01:31.500 --> 01:36.680
Entonces, para nosotros, este será el trabajo del último y luego será la recompensa del día anterior, etc.

01:37.080 --> 01:43.320
y cada vez que actualizamos nuestro Al multiplicarlo por gamma y luego agregar esta recompensa en el conjunto.

01:43.650 --> 01:47.090
Y así al hacer esto, recuerda que llegaremos al final.

01:47.210 --> 01:53.070
obtendremos una recompensa de nuestra comunidad que será genial al final del ciclo hasta nuestro cero.

01:53.070 --> 01:55.910
Así que voy a escribirlo cuando lleguen y

01:56.060 --> 02:02.100
La recompensa del paso cero más los tiempos gamma son uno.

02:02.290 --> 02:09.040
Fuimos los primeros en agregar los tiempos de gamma cuadrado a la palabra.

02:09.060 --> 02:21.960
El segundo paso más esa gamma más a la potencia de y menos una vez la recompensa obtenida en el paso y menos 1 en cualquier

02:22.800 --> 02:30.690
número de pasos, pero luego tenga cuidado al final tendremos gamma con el poder de la

02:31.050 --> 02:32.250
cantidad de pasos.

02:33.530 --> 02:40.110
Los tiempos devalúan el valor de la función aplicada al último estado.

02:40.150 --> 02:42.450
A eso es a lo que deberíamos llegar todavía.

02:42.680 --> 02:49.130
Y esto lo obtendremos porque recuerden que obtuvimos este valor y el último paso porque esto se hizo al final

02:49.130 --> 02:50.840
de este ciclo for aquí.

02:51.200 --> 02:56.140
Y así obtuvimos el valor y establecemos que nuestro valor sea igual a ese valor.

02:56.420 --> 03:02.710
Así que en este momento están al comienzo del segundo ciclo completo aquí será igual a este valor de la

03:02.710 --> 03:03.310
última fecha.

03:03.590 --> 03:10.300
Pero al hacer esto, esto es lo que obtendremos al final son iguales o cero por ciento o una cancha de tenis

03:10.520 --> 03:16.620
o dos más pueden agregar la potencia y menos una vez que estuvimos en el paso y menos un juego

03:16.620 --> 03:20.990
más a la potencia del número de pasos multiplicado por este valor de Lastings.

03:21.020 --> 03:25.900
Entonces, eso es lo principal para entender y esta puede ser la acción de la recompensa acumulativa.

03:26.090 --> 03:33.560
Y es por eso que es importante partir de él inicializando o con el aquí y haciendo este

03:33.820 --> 03:37.390
ciclo invertido para obtener esta ecuación final perfecta.

03:37.400 --> 03:43.430
Y ahora que tenemos el valor correcto para la recompensa acumulativa, calcularemos la ventaja y la

03:43.850 --> 03:49.110
ventaja aquí es solo la ventaja de obtener esta recompensa en comparación con ellos.

03:49.160 --> 03:56.600
Así que voy a introducir una ventaja evolutiva y, por lo tanto, será igual a esta recompensa acumulativa

03:57.020 --> 04:01.390
menos el valor de la función V obtenida en la etapa.

04:01.610 --> 04:06.690
Entonces, ese es nuestro valor negativo.

04:07.130 --> 04:07.740
Perfecto.

04:07.760 --> 04:13.160
Y ahora que tenemos la comunidad en la que trabajamos y la ventaja, entonces podemos obtener la pérdida de valor.

04:13.190 --> 04:15.170
Este es el primero que podemos obtener ahora.

04:15.200 --> 04:20.940
Así que vamos a obtener nuestro valor lo hace muy bien y esto se actualizará de la siguiente manera.

04:20.960 --> 04:24.530
Recuerde que hasta el momento que nos devaluó se inicializó a cero.

04:24.800 --> 04:34.670
Y entonces vamos a tomar la pérdida de valor nuevamente y a 0. 5 veces el cuadrado a la ventaja para que podamos obtenerlo de

04:34.670 --> 04:35.480
esta manera.

04:35.490 --> 04:39.410
Ventaja también pensada.

04:39.470 --> 04:46.460
Así que eso solo significa cuadrar la ventaja de la potencia y ese es exactamente el valor más

04:46.580 --> 04:52.830
la pérdida generada por las predicciones del valor de las salidas de función por el arroyo.

04:53.120 --> 04:59.840
Por lo tanto, tiene sentido que esto se devalúe solo porque recuerde que la ventaja de la acción en el estado

04:59.840 --> 05:04.820
s es la diferencia entre el valor Q y el valor de la función B.

05:04.880 --> 05:14.660
Y así, cuando jugamos la acción óptima Bueno, obtenemos el estado estacionario con Q óptimo de la acción óptima

05:14.660 --> 05:20.080
que un jugador estrella en el estado iguala el valor óptimo.

05:20.080 --> 05:22.000
Vistar del estado s.

05:22.180 --> 05:28.390
entender que cuando la ventaja no es igual a cero, habrá una diferencia entre estos dos.

05:28.390 --> 05:29.990
Entonces, es bastante intuitivo

05:30.220 --> 05:32.930
Y por lo tanto, así es como se mide el último.

05:33.370 --> 05:34.120
DE ACUERDO.

05:34.120 --> 05:37.410
Así que el último cálculo fue una última caída.

05:37.420 --> 05:39.000
Ahora tenemos uno más para ir.

05:39.010 --> 05:44.560
la política y eso es lo que vamos a calcular en este momento y para calcularlo debemos

05:44.560 --> 05:51.990
considerar nuevamente la estimación de la ventaja generalizada porque para calcular la pérdida de la política necesitamos una estimación de la ventaja

05:52.000 --> 05:58.450
generalizada y obtener las ventajas generalizadas de la nación primero necesitamos la diferencia temporal de las válvulas de etapa.

05:58.540 --> 05:59.760
Es la pérdida de

05:59.830 --> 06:06.220
Así que tenemos varias cosas para calcular aquí y vamos a comenzar con esta diferencia temporal una vez que

06:06.220 --> 06:07.710
tengamos la diferencia temporal.

06:07.780 --> 06:12.850
Obtendremos la estimación de ventaja generalizada y una vez que tengamos las ventajas generalizadas

06:13.180 --> 06:14.900
de mencionar, obtendremos las penínsulas.

06:14.920 --> 06:15.460
Todo bien.

06:15.670 --> 06:28.100
Comencemos con la diferencia temporal T. GRAMO. Bromstad gamma multiplica por el valor de esta

06:28.700 --> 06:39.200
deuda más uno y agregamos esa información para acceder a ella menos el valor del paso I y lo mismo los datos.

06:39.200 --> 06:50.260
DD es igual a la recompensa del paso I más Ghana que obtenemos cosas para nuestra lista de programas, por lo que

06:50.280 --> 06:50.610
Todo bien.

06:50.670 --> 06:53.900
Esa es la fórmula de la diferencia temporal y los valores de estado.

06:54.180 --> 06:59.690
Y ahora podemos actualizar la estimación de ventaja generalizada y cómo está fechada.

06:59.880 --> 07:10.230
Bueno, tomamos R-GA y lo multiplicamos por gamma parameter gamma times, de modo que también accedemos con nuestros

07:10.230 --> 07:10.940
parámetros.

07:10.950 --> 07:18.410
Entonces tomamos programas de celda y agregamos esta diferencia temporal de los valores de estado.

07:18.510 --> 07:19.890
Así que ten cuidado.

07:19.890 --> 07:21.280
Estamos en el circuito.

07:21.450 --> 07:27.060
Y cada vez multiplicamos el by-by y agregamos una diferencia temporal.

07:27.150 --> 07:33.720
Entonces, es importante entender que al final de este bucle, esta estimación de ventaja generalizada

07:34.170 --> 07:46.180
será igual a la suma de todos los pasos de los tiempos gamma, de modo que la potencia de i multiplicada por la diferencia temporal en el paso

07:46.480 --> 07:50.360
por, sea tan importante para mantener esa en mente.

07:50.700 --> 07:57.000
Y ahora que tenemos la estimación de ventaja generalizada y la diferencia general, finalmente

07:57.000 --> 07:58.880
podemos calcular la política.

07:59.070 --> 08:00.210
Entonces, hagamos esto.

08:00.210 --> 08:10.020
Vamos a actualizar nuestras leyes de política de la siguiente manera tomando la antigua política para nosotros y restamos las

08:10.230 --> 08:20.280
probabilidades de LUGG obtenidas en el paso que multiplicamos por esta estimación de ventaja generalizada que tenemos que poner en

08:20.280 --> 08:23.920
una variable porque luego calcularemos los gradientes.

08:24.150 --> 08:33.170
Entonces tiene que ser adjuntado a degradados en el gráfico y luego agregamos menos 0. 1 vez la entropía.

08:33.170 --> 08:36.660
La entropía obtenida en el paso en el otoño.

08:37.200 --> 08:38.130
Y otra vez.

08:38.220 --> 08:39.540
Ahora ten cuidado

08:39.540 --> 08:50.830
menos algunos pasos sobre el producto de la política en los tiempos de paso a la estimación de ventaja generalizada.

08:51.280 --> 09:03.110
Este es el interior del ciclo, lo que significa que al final de la gripe lo que obtendrá es una política más

09:03.110 --> 09:04.090
igual a

09:04.160 --> 09:10.710
Además este 0. 01 veces la entropía hace lo que tenemos.

09:10.720 --> 09:13.240
Y ahora, ¿cuál es la política del yo?

09:13.280 --> 09:19.100
Bueno, esa es la probabilidad máxima de Max de las acciones y la entropía de esto, que haré que

09:19.100 --> 09:21.320
sepas qué es lo que hicimos antes.

09:21.430 --> 09:22.870
Y lo que intentamos hacer la lista.

09:22.940 --> 09:24.130
Entonces ya tenemos eso.

09:24.290 --> 09:29.950
Pero este año escuché que es la probabilidad Max suave de las acciones.

09:30.170 --> 09:32.080
Y por qué ponemos un menos aquí.

09:32.150 --> 09:37.220
Eso es porque la suerte de la probabilidad y la entropía son valores negativos.

09:37.220 --> 09:43.340
Y como queremos minimizar su valor absoluto, debemos ver esto último como la probabilidad LUGG en lugar

09:43.340 --> 09:44.370
de una distancia.

09:44.370 --> 09:51.530
No, queremos maximizar la probabilidad de la acción que maximizará la ventaja.

09:51.530 --> 09:53.130
Esa es toda la idea detrás de eso.

09:53.210 --> 09:59.060
para aquellos de ustedes que podrían estar preguntándose cuál es el propósito de esta entropía eficiente.

09:59.060 --> 10:03.500
Queremos maximizar la probabilidad de jugar la acción que maximizará la ventaja y

10:03.650 --> 10:05.720
Hay este factor 0. 01 aquí.

10:05.930 --> 10:13.430
Bueno, el objetivo es evitar que caiga demasiado rápido en una trampa donde tenemos una distribución de probabilidades

10:13.430 --> 10:19.340
con ceros para todas las acciones, excepto una que tiene una probabilidad de uno.

10:19.550 --> 10:22.370
Y si eso sucede eso minimizaría la entropía.

10:22.550 --> 10:29.060
Entonces, es por eso que estamos agregando estas pequeñas revisiones 0. 01 año que hará que la entropía aumente en

10:29.060 --> 10:30.940
el Gran en el sentido.

10:31.020 --> 10:35.460
OK, entonces la buena noticia es que la parte más difícil ya está hecha.

10:35.500 --> 10:41.050
Tenemos las dos pérdidas y, por lo tanto, lo que solo tenemos que hacer ahora y que ya sabemos cómo hacerlo

10:41.050 --> 10:44.820
es realizar solo para obtener una calificación en el sentido de reducir estas dos clases.

10:45.190 --> 10:51.170
Y entonces, lo que vamos a hacer ahora es salir de este circuito y vamos a tomar nuestro optimizador.

10:51.390 --> 10:57.220
El que hicimos por separado, entonces recuerda que lo primero que tenemos que hacer es inicializar

10:57.220 --> 11:04.810
todos los parámetros de clasificación a cero y para hacer esto lo sumamos a cero y se llama método de graduación.

11:04.810 --> 11:06.980
Está bien, entonces eso está hecho.

11:07.000 --> 11:11.890
Ahora vamos a realizar una propagación hacia atrás, pero le daremos el doble de importancia a

11:11.890 --> 11:15.670
la política que el valor perdido porque la política es más pequeña.

11:15.970 --> 11:28.190
Entonces para hacer esto vamos a poner en la política de paréntesis y el puntaje más más 0. 5 pérdida de valor así que 0. 5 veces el valor para nosotros y vamos a

11:28.970 --> 11:37.400
agregar aquí que aplicamos el método hacia atrás para realizar la propagación hacia atrás y gracias a este truco

11:37.400 --> 11:43.880
aquí con la política menos más la mitad del valor que tenemos el doble

11:43.880 --> 11:47.460
de importancia para la política que el Vaness.

11:47.480 --> 11:53.630
OK, vamos a usar otro truco que es evitar que el degradado tome valores extremadamente

11:53.630 --> 11:56.890
grandes y, por lo tanto, genere el algoritmo.

11:57.020 --> 12:03.530
de la biblioteca de antorchas, luego el submódulo utils y ahora vamos a usar una función CLEP

12:04.220 --> 12:13.040
subrayar grad en la norma de puntuación y vamos a ingresar nuestra parámetros del modelo con una segunda entrada que será 40.

12:13.530 --> 12:20.830
Y el truco para hacer eso es obtener primero nuestra biblioteca de antorchas, luego el extremo y el módulo

12:21.200 --> 12:26.560
Y ese truco básicamente se asegurará de que los degradados no tomen valores extremadamente grandes

12:26.560 --> 12:28.000
y generen el algoritmo.

12:28.220 --> 12:30.770
Y para aquellos de ustedes que podrían estar preguntándose si estos 40 años.

12:30.800 --> 12:31.640
Exactamente.

12:31.850 --> 12:37.130
Bueno, eso significa que estamos utilizando estos valores, por lo que la norma del gradiente se mantiene

12:37.130 --> 12:42.510
entre 0 y 40, y por eso es así como evitamos que el gradiente tome valores grandes.

12:43.000 --> 12:45.170
OK, ya casi terminamos.

12:45.170 --> 12:52.550
Recuerde que hicimos esto y que compartimos la función de Gretz al principio del otoño, que es para asegurarnos de

12:52.670 --> 12:59.450
que el agente y el modelo compartido comparten los mismos degradados y hacer esto para asegurarse de que

12:59.450 --> 13:01.090
podamos aplicar esta función aquí.

13:01.220 --> 13:13.310
Así que vamos a agregar y compartir los grad's para asegurarnos de que el modelo moral y compartido comparten los

13:13.310 --> 13:14.690
mismos gradientes.

13:14.690 --> 13:16.670
Está bien, así que es solo una precaución.

13:16.670 --> 13:21.620
No estoy seguro de que sea totalmente necesario, pero al menos no sabremos nada aquí.

13:22.040 --> 13:22.550
Bueno.

13:22.550 --> 13:29.900
Y finalmente, la última línea de código, por supuesto, vamos a realizar el paso de optimización

13:29.900 --> 13:38.900
para reducir las pérdidas y usted sabe cómo hacerlo; por supuesto, tomamos nuestro optimizador y lo agregamos con paréntesis

13:39.320 --> 13:43.300
y luego vamos a entrenar nuestros cerebros. encima.

13:43.550 --> 13:44.780
Así que felicitaciones.

13:44.780 --> 13:47.030
Espero que esto no sea demasiado abrumador.

13:47.060 --> 13:49.620
No se preocupe, le proporcionaré el código con todos los comentarios.

13:49.670 --> 13:53.330
Entonces, si omite algún detalle, puede echarle un vistazo a los comentarios.

13:53.420 --> 13:57.260
Y no te preocupes si no has entendido nada, esto es muy avanzado.

13:57.410 --> 14:04.020
Pero tenga la seguridad de que esta es también la visita de recuerdo más poderosa realizada por el creador de pi.

14:04.100 --> 14:06.770
Entonces realmente estamos trabajando con los mejores aquí.

14:06.850 --> 14:12.560
El estado del arte, por lo que es totalmente normal que si no obtuviste todo la primera

14:12.560 --> 14:16.520
vez, pero trabajando en ello muchas veces definitivamente te sentirás más cómodo.

14:16.520 --> 14:19.150
Así que ahora hemos terminado con el entrenamiento.

14:19.220 --> 14:26.080
Básicamente, hicimos todas las cosas más importantes que sabes que hicimos los cerebros construyendo las arquitecturas de las

14:26.120 --> 14:30.610
redes neuronales con las convoluciones LCN y las capas completamente conectadas.

14:30.620 --> 14:34.360
Entrenamos su cerebro al hacer este código de tren aquí.

14:34.520 --> 14:37.190
Entonces, básicamente, el corazón del algoritmo está hecho.

14:37.310 --> 14:39.800
Hiciste que el A3 viera felicitaciones.

14:39.800 --> 14:43.940
Ahora tenemos algunas cosas más que hacer, pero eso es solo para divertirnos.

14:43.940 --> 14:52.540
Sabes que tenemos que hacer esta prueba que encontramos que pondrá a prueba a los agentes y proporcionará los videos y

14:52.550 --> 14:54.020
la salida del avión.

14:54.170 --> 15:00.860
Así que será muy divertido ver que no vamos a codificar todas las líneas de esta prueba porque me caí porque,

15:00.860 --> 15:02.720
como dijimos, hicimos lo más importante.

15:02.840 --> 15:10.310
el 23C pero, por supuesto, explicaré el código y, eventualmente, tendremos esta información. Descubrí cuál ejecutará el código.

15:10.310 --> 15:11.770
Todos los relacionados con

15:11.890 --> 15:15.900
Y desde el momento en que ejecutamos este código, se generará todo el código.

15:16.040 --> 15:18.150
Entonces los cerebros estarán hechos.

15:18.200 --> 15:24.080
El entrenamiento sucederá y la vista jugará nuevos juegos de breakout y obtendremos todos los videos.

15:24.080 --> 15:26.480
Así que no puedo esperar para eventualmente verlos.

15:26.550 --> 15:29.810
Vamos a ver si es lo suficientemente inteligente como para atrapar la pelota.

15:29.990 --> 15:36.380
Así que ahora voy a ver en el siguiente tutorial para esta interfaz de usuario de escritorio para que podamos probar la IA en

15:36.380 --> 15:37.250
algunos juegos nuevos.

15:37.300 --> 15:38.980
Y hasta entonces, disfruta de la IA.