WEBVTT

00:00.480 --> 00:03.160
Hola y bienvenidos a este tutorial de Python.

00:03.180 --> 00:03.520
Todo bien.

00:03.520 --> 00:08.810
En este aceite vamos a hacer la función que seleccionará la acción correcta y cada vez.

00:08.810 --> 00:13.650
Entonces, básicamente vamos a implementar la parte que hará que el automóvil sea el movimiento correcto.

00:13.740 --> 00:18.780
Y cada vez que va a la izquierda yendo derecho o yendo a la derecha para alcanzar la meta y

00:18.780 --> 00:20.640
para evitar los obstáculos que es el descenso.

00:21.000 --> 00:22.350
Así que hagámoslo ahora.

00:22.370 --> 00:28.320
vamos a llamar acción select que algunos paréntesis y esta función de acción de selección tomará dos argumentos.

00:28.320 --> 00:36.370
Vamos a comenzar como de costumbre con los sordos a definir una función y luego le damos un nombre a nuestra función a

00:36.550 --> 00:37.410
la que

00:37.450 --> 00:43.960
El primero es uno mismo a medida que crece para referirse al objeto y el segundo argumento que

00:43.960 --> 00:46.150
según usted va a ser cuál.

00:46.390 --> 00:47.860
Bueno, ¿qué podría ser?

00:47.860 --> 00:54.220
de la red neuronal o la q valora para cada una de las tres acciones posibles y, por lo tanto, la

00:54.220 --> 00:59.890
acción con la que jugamos la acción que será el resultado de la red neuronal depende del estado de

00:59.890 --> 01:05.980
entrada y los estados de entrada es exactamente el segundo argumento que necesitamos con la función de selección de acción.

01:05.980 --> 01:11.610
Si lo piensas, la acción que seleccionamos proviene de la salida de la red neuronal porque la salida

01:11.680 --> 01:16.310
Es porque literalmente tomaremos la salida de la red neuronal.

01:16.510 --> 01:22.180
Y, por supuesto, la salida de la red neuronal depende directamente de la entrada de la red neuronal.

01:22.360 --> 01:24.010
Así que ese va a ser nuestro argumento.

01:24.280 --> 01:31.720
Y ahora podemos darle cualquier nombre que en realidad le llamemos estado porque la entrada de las redes neuronales son

01:31.960 --> 01:38.280
los estados de entrada que están codificados por un vector de cinco dimensiones a tres señales de

01:38.480 --> 01:39.920
orientación y menos orientación.

01:40.120 --> 01:42.120
Y ahora las cosas van a ser fáciles.

01:42.160 --> 01:47.860
Vamos a alimentar el estado de entrada en la red neuronal que construimos aquí arriba con

01:47.860 --> 01:54.520
la próxima clase y luego obtendremos los resultados que son los valores clave para cada una de las tres

01:54.520 --> 01:59.530
acciones posibles y luego usando el método de Max suave que voy a explicar

01:59.530 --> 02:00.360
en este tutorial.

02:00.400 --> 02:03.140
Vamos a tener la acción final para jugar.

02:03.280 --> 02:08.460
Así que hagamos esto, entremos a la función y apliquemos todo esto.

02:08.470 --> 02:14.980
Entonces, lo primero que necesitamos para empezar es sobre lo que acabo de mencionar. La idea del

02:14.980 --> 02:20.590
Max suave es que trataremos de obtener la mejor acción para jugar en cada momento.

02:20.740 --> 02:25.000
Pero al mismo tiempo exploraremos las diferentes acciones.

02:25.000 --> 02:25.950
Y cómo hacemos eso.

02:25.960 --> 02:31.080
¿Cómo podemos obtener la mejor acción para jugar mientras exploramos las otras acciones?

02:31.270 --> 02:39.250
Bueno, usamos esta idea de cosas que consiste en generar una distribución de probabilidades para cada uno de

02:39.250 --> 02:40.370
los valores q.

02:40.420 --> 02:42.100
Q Estados de acción.

02:42.160 --> 02:46.600
Ahora tenemos un valor de Q para cada acción, vaya hacia la izquierda, siga recto o hacia la derecha.

02:46.850 --> 02:49.680
Pero este q valor también depende del estado de entrada.

02:49.690 --> 02:52.720
Esa es exactamente la función Q utilizada en las conferencias de intuición.

02:52.870 --> 02:56.280
Esta función Q es una función del estado y la acción.

02:56.320 --> 03:02.540
Entonces, dado que tenemos aquí un estado de entrada que es el estado aquí y

03:02.540 --> 03:09.070
tres acciones posibles, tenemos tres valores nuevos Q. La acción estatal 1 Q establece la acción 2 y dos declara

03:09.070 --> 03:13.760
la acción 3 y vamos a generar una distribución de probabilidades con respecto a estos tres valores clave.

03:13.930 --> 03:19.420
Es decir, vamos a tener una probabilidad para el primer valor de Q una de la probabilidad para el

03:19.420 --> 03:25.490
segundo valor de Q y una tercera probabilidad para el tercer Q y todas las tres probabilidades sumarán hasta 1.

03:25.670 --> 03:31.840
hacer todo esto con Max machacado y Max machacado atribuirá una gran probabilidad a la Q más alta alrededor.

03:32.170 --> 03:33.530
Y entonces vamos a

03:33.820 --> 03:41.050
Es por eso que una alternativa al Max blando es un RMX simple que no toma directamente el máximo de los valores q,

03:41.530 --> 03:44.860
pero en ese caso no estamos explorando las otras acciones.

03:44.920 --> 03:50.500
Gracias a estas probabilidades podemos explorar en otro lugar utilizando un parámetro de temperatura que vamos

03:50.500 --> 03:51.900
a ver muy rápidamente.

03:52.210 --> 03:55.990
Todavía podemos explorarlos configurando este parámetro de temperatura.

03:56.020 --> 04:03.380
Es por eso que, en general, para la seguridad, recomiendo utilizar un x blando en lugar de un simple RMX.

04:03.460 --> 04:06.990
De acuerdo, implementemos X y, por lo tanto, como usted lo entendió.

04:07.060 --> 04:12.990
Ya que Max alborotado devuelve las probabilidades de cada uno de los tres valores Q para las tres acciones posibles.

04:13.180 --> 04:20.120
Bueno, la primera variable que vamos a crear probablemente se esté refiriendo, por supuesto, a estas probabilidades.

04:20.450 --> 04:26.680
Así que los accesorios son iguales y ahora vamos a tomar nuestra siguiente función mejorada y de acuerdo a usted

04:26.680 --> 04:28.070
de dónde vamos a sacarla.

04:28.330 --> 04:31.600
Bueno, por supuesto, recuerda que importamos el.

04:31.700 --> 04:38.130
Y luego hace un submódulo funcional que recuerdo es el módulo que contiene la mayoría de las acciones

04:38.140 --> 04:39.790
para implementar una red neuronal.

04:39.820 --> 04:44.980
eso es en realidad de este submódulo funcional que nos vamos a llevar a nuestra siguiente función.

04:44.980 --> 04:46.990
Le dimos el atajo F y

04:47.290 --> 04:53.830
Pero dado que le dimos un atajo, comenzamos aquí con un representante de Neph funcional del cual

04:54.040 --> 04:56.080
tomamos nuestra próxima función mejorada.

04:56.080 --> 04:56.920
Aquí está.

04:56.980 --> 04:59.540
Ese es el primero y paréntesis.

04:59.770 --> 05:00.160
Todo bien.

05:00.200 --> 05:03.920
Ahora, ¿qué necesitamos ingresar en la próxima función?

05:04.150 --> 05:10.020
Bueno, eso es, por supuesto, las entidades para las que queremos generar una distribución de probabilidad.

05:10.190 --> 05:11.430
Y cuáles son estas entidades

05:11.550 --> 05:13.870
Bueno, estos son, por supuesto, los valores clave.

05:13.870 --> 05:16.790
Entonces, ahora la pregunta es ¿cómo podemos obtener los valores q?

05:16.960 --> 05:22.720
Bueno, por supuesto, los valores q son la salida de la red neuronal y obtener estos resultados de la

05:22.720 --> 05:23.410
red neuronal.

05:23.590 --> 05:24.560
Bueno, aquí vamos.

05:24.610 --> 05:26.830
Necesitamos tomar nuestra nueva red.

05:27.100 --> 05:33.520
Pero, de hecho, ya lo tenemos porque eso es lo que inicializó al final su función.

05:33.530 --> 05:39.980
Sepa que creamos un modelo autodidacta que no es otra cosa que no funcionará porque es un nuevo objeto de

05:40.290 --> 05:41.540
la clase de red.

05:41.600 --> 05:42.820
Y eso es perfecto.

05:42.830 --> 05:49.040
Podemos simplemente tomar nuestro modelo aquí y luego aplicar este modelo al estado de entrada que es

05:49.040 --> 05:52.950
el argumento aquí y que devolverá los resultados que estamos buscando.

05:53.090 --> 05:54.440
Ese es el valor clave.

05:54.560 --> 06:00.260
Y entonces ahora tu intuición de por qué tuvimos que tomar el modelo aquí para introducirlo en la función

06:00.260 --> 06:00.840
podría mejorar.

06:00.920 --> 06:06.410
Aquellos de ustedes que comiencen con la programación orientada a objetos verán que todo esto se volverá

06:07.100 --> 06:08.780
natural, tan suave a continuación.

06:08.870 --> 06:16.840
Entonces, tomamos nuestro modelo de modelo propio porque este debe ser el modelo del objeto que creamos aquí.

06:17.180 --> 06:24.350
Pero luego tenemos que obtener el resultado de nuestro modelo de red neuronal y, por lo tanto, vamos a escuchar

06:24.350 --> 06:30.400
algunos paréntesis en los que vamos a ingresar Bueno, aquí el estado de entrada llamado estado.

06:30.620 --> 06:39.350
Entonces, lo que queremos hacer al principio es ingresar el estado, pero ahora debemos tener cuidado de que algo se vea como un simple conjunto

06:39.350 --> 06:40.560
en este momento.

06:40.790 --> 06:46.850
adelante vamos a usar esta celda en un estado menor para ponerlo como argumento de la función Seleccionar acción.

06:46.920 --> 06:52.190
Pero recuerde que el estado en realidad va a ser un sensor de antorcha porque más

06:52.190 --> 06:57.430
El argumento del estado que está aquí se convertirá más adelante en este estado menos autodidacta.

06:57.680 --> 07:01.680
Y dado que este es un mundo de respuesta torturado, el modelo lo aceptará.

07:01.760 --> 07:02.690
Así que está bien.

07:02.810 --> 07:05.000
Pero ahora podemos mejorar el algoritmo.

07:05.180 --> 07:12.490
Entonces, tan pronto como el estado es un sensor de antorcha y como dijimos antes, la mayoría de los sensores están envueltos

07:12.500 --> 07:13.260
en voivoda.

07:13.320 --> 07:15.640
Esto también contendrá un gradiente.

07:15.650 --> 07:22.110
Así que ahora lo que vamos a hacer primero es envolver muy bien este estado de entrada que es

07:22.110 --> 07:27.990
un tensor en una antorcha, pero ya que esta es la entrada, dice: Bueno, no habrá diferenciación.

07:28.160 --> 07:34.700
No usaremos el gradiente de esta antorcha estatal Voivode y eso puede ser estaciones y,

07:34.880 --> 07:45.530
por lo tanto, lo que vamos a hacer ahora es convertir este estado de sensor de antorcha en una variable de antorcha como esa.

07:45.780 --> 07:51.400
Pero luego especificar que no queremos los degradados en el gráfico en absoluto que puedan depreciarse al

07:51.400 --> 07:52.380
final de Mudgal.

07:52.570 --> 07:57.800
Bueno, aquí subiremos volátiles igual a verdadero.

07:58.150 --> 08:06.160
ahora tenemos nuestro sensor de soplete de estado en una antorcha muy bien, pero gracias a este Votel es igual al barómetro verdadero.

08:06.160 --> 08:07.200
De modo que

08:07.390 --> 08:14.950
Bien, incluiremos los degradados asociados a estos estados de entrada en el gráfico de todas las condiciones del extremo

08:15.100 --> 08:16.530
en ese modelo.

08:16.840 --> 08:18.530
Entonces ese es otro truco técnico.

08:18.550 --> 08:23.130
Esto nos ahorrará algo de memoria y, por lo tanto, esto mejorará el rendimiento.

08:23.170 --> 08:27.850
Así que recomiendo hacer esto y ahora vamos a agregar algo más divertido.

08:27.910 --> 08:30.640
Se trata de este parámetro de temperatura que acabo de mencionar.

08:30.850 --> 08:36.190
permitiría modular cómo la red neuronal estará segura de qué acción debería decidir jugar.

08:36.190 --> 08:40.040
Entonces, este parámetro de temperatura es el parámetro que nos

08:40.210 --> 08:47.290
Entonces, este parámetro de temperatura será un número positivo y cuanto más cerca esté de cerrarse, menos seguro estará la red

08:47.290 --> 08:53.200
neuronal cuando juegue en acción y cuanto mayor sea el parámetro de temperatura, más segura será la

08:53.410 --> 08:56.540
red neuronal de la acción que decida jugar. .

08:56.890 --> 09:04.480
Y para agregar este parámetro voy a multiplicar las salidas que son las Kugan utilizadas por este parámetro

09:04.480 --> 09:05.250
de temperatura.

09:05.500 --> 09:13.440
Empecemos, por ejemplo, con 7 y voy a especificar aquí que el pequeño comentario T es igual a 7.

09:13.460 --> 09:15.610
Entonces ese es el parámetro de temperatura.

09:15.690 --> 09:17.210
Lo siento, pasa a 7.

09:17.260 --> 09:21.010
Vamos a probar algunos otros, pero solo quiero comenzar con uno pequeño porque vas

09:21.010 --> 09:22.470
a ver eso con uno pequeño.

09:22.510 --> 09:28.150
Nuestro coche todavía se comportará como un insecto, pero luego, al aumentar el parámetro de temperatura, nuestro

09:28.510 --> 09:34.340
código se verá más como un automóvil y decidirá vender, ya que la conducción será mucho mejor.

09:34.480 --> 09:40.450
Y eso tiene sentido porque cuanto más alto es este parámetro de temperatura, más alta

09:40.450 --> 09:48.010
será la probabilidad de que Juval gane, porque, por ejemplo, si tenemos el máximo de los valores de q.

09:48.190 --> 09:54.850
Tomemos algunos números simples uno dos tres si el máximo relleno es de uno a tres iguales.

09:54.850 --> 10:01.150
Por ejemplo 0. 04 0. 11 y abre ochenta y cinco.

10:01.270 --> 10:05.650
Luego, aumentando la temperatura tomando una temperatura más alta.

10:05.680 --> 10:13.360
En este momento la temperatura es igual a uno al tomar una temperatura alta como por ejemplo resta

10:13.360 --> 10:22.210
Tussaud copiemos esto y multipliquemos por ejemplo dos o tres, así que luego tenemos los mismos valores pero multiplicados por el

10:22.210 --> 10:24.110
parámetro de temperatura de tres.

10:24.370 --> 10:31.390
Bueno, obtendremos algo así como cero para el primer valor de Q porque esto tiene una probabilidad muy baja

10:31.530 --> 10:38.020
de que algo alrededor de cero sea algo muy pequeño para la segunda probabilidad, porque esta era todavía

10:38.020 --> 10:39.260
una baja probabilidad.

10:39.410 --> 10:42.910
Entonces, digamos por ejemplo o punto 0 2.

10:43.320 --> 10:49.910
Pero luego esta tercera probabilidad ya que fue la más grande y bastante alta.

10:50.140 --> 10:55.180
Al aumentar la temperatura, esta probabilidad será aún mayor porque vamos a estar aún más seguros

10:55.180 --> 11:02.230
de que este es el valor correcto de Q correspondiente a la acción que debemos jugar y, por lo tanto, va a

11:02.230 --> 11:05.630
ser algo así como 0. 2 98.

11:05.980 --> 11:11.800
Ahora, al aumentar el parámetro de temperatura Bueno, ahora estamos aún más seguros de que la tercera acción aquí

11:11.800 --> 11:17.530
debería ser la acción a jugar porque la probabilidad del valor q de esta acción no es solo la

11:17.530 --> 11:19.590
más grande sino también muy alta.

11:19.840 --> 11:22.600
De eso se trata este parámetro de temperatura.

11:22.660 --> 11:27.340
Se trata de la certeza de la dirección en la que deberíamos decidir jugar.

11:27.340 --> 11:27.610
Todo bien.

11:27.610 --> 11:29.450
Así que voy a eliminar este comentario.

11:29.470 --> 11:31.000
Esto fue solo para explicar.

11:31.200 --> 11:33.490
Y ahora tomemos nuestra acción.

11:33.490 --> 11:35.370
Entonces, ¿cómo vas a hacer eso?

11:35.560 --> 11:41.440
cada uno de los valores clave sino también, y ese es el segundo paso del siguiente método suave.

11:41.440 --> 11:46.390
Bueno, el principio del siguiente método no es solo generar una distribución de probabilidad para

11:46.480 --> 11:51.820
Tomamos un sorteo al azar de esta distribución para obtener nuestra acción final.

11:52.010 --> 11:57.310
Y, por supuesto, tendremos una alta probabilidad de obtener la acción que corresponde al valor Q

11:57.310 --> 12:01.660
que tiene la probabilidad más alta porque así es exactamente como funciona la distribución.

12:01.660 --> 12:02.550
Entonces ahí vamos

12:02.560 --> 12:04.040
Vamos a tener nuestra acción.

12:04.060 --> 12:11.380
Así que vamos a presentar un nuevo voivoda, vamos a llamar acción y esta acción va a ser un

12:11.380 --> 12:17.460
sorteo al azar de la distribución de probabilidad que acabamos de crear en este momento.

12:17.510 --> 12:20.100
Entonces, ¿cómo obtenemos un sorteo al azar?

12:20.200 --> 12:26.410
Bueno, vamos a tomar las probabilidades de cada uno de los valores clave que tomamos como puntales

12:26.650 --> 12:34.120
y luego dardos y luego vamos a usar la función multi Gnomeo y eso nos dará un sorteo al azar

12:34.120 --> 12:36.030
de este proceso de distribución.

12:36.160 --> 12:38.420
Entonces eso es todo lo que obtendrá su reacción.

12:38.470 --> 12:39.280
Perfecto.

12:39.490 --> 12:42.790
Y ahora, por supuesto, vamos a devolver la acción.

12:42.790 --> 12:44.730
Hay un pequeño truco aquí.

12:44.810 --> 12:51.460
¿Cuál es el hecho de que este Propst que multinomial devuelve el PI hacia viable con una placa falsa.

12:51.490 --> 12:57.210
Usted conoce estos diamantes falsos y corresponde al lote y, por lo tanto, para obtener el resultado correcto

12:57.220 --> 13:00.540
que deseamos, esa es la acción en 0 1 o 2.

13:00.820 --> 13:08.200
Solo tenemos que agregar aquí los datos y luego algunos corchetes y las acciones aquí son una o dos

13:08.230 --> 13:13.100
que estamos buscando es contenido y el índice es 0 y 0.

13:13.570 --> 13:14.000
Todo bien.

13:14.000 --> 13:14.730
Y ahí vamos.

13:14.740 --> 13:21.420
Ahora que tenemos nuestra acción gracias a esta función de acción selectiva, la IA ahora sabrá qué acción jugar.

13:21.490 --> 13:22.440
Y cada vez

13:22.810 --> 13:23.460
Estupendo.

13:23.500 --> 13:27.430
Entonces ahora podemos pasar a la siguiente función que será la función de aprendizaje.

13:27.520 --> 13:32.410
Y ahí es donde vamos a entrenar a toda la red neuronal que conoces con toda la propagación

13:32.410 --> 13:35.790
hacia adelante y luego la propagación hacia atrás es categorizar en el sentido.

13:35.950 --> 13:41.500
Bien, básicamente implementaremos todo el entrenamiento del modelo de aprendizaje profundo que está en el

13:41.560 --> 13:43.340
corazón de nuestra inteligencia artificial.

13:43.480 --> 13:44.680
Entonces no puedo esperar para hacer eso.

13:44.680 --> 13:49.290
Este va a ser un tutorial emocionante y te veré en el próximo Statoil.

13:49.510 --> 13:50.670
Hasta entonces disfruta.

13:50.720 --> 13:51.000
YO.