WEBVTT

00:00.710 --> 00:02.430
Hola a todos, y bienvenidos de nuevo.

00:02.450 --> 00:04.970
En esta lección, vamos a configurar nuestro entorno.

00:05.270 --> 00:10.820
Y quiero presentar esta descripción general de más alto nivel para aquellos que quieran intentar resolverlo por su

00:10.820 --> 00:11.180
cuenta.

00:11.480 --> 00:14.120
Y esto puede parecerle familiar en la última conferencia que vio.

00:14.330 --> 00:15.740
Así que si lo lees, mis disculpas.

00:15.740 --> 00:17.270
Vamos a revisarlo muy rápido.

00:17.900 --> 00:18.740
Lo primero es lo primero.

00:19.160 --> 00:24.230
En este proyecto, nuestro objetivo es mantenerlo lo más simple posible en el sentido de que no necesitamos

00:24.230 --> 00:25.400
importar demasiadas bibliotecas.

00:25.400 --> 00:27.890
Básicamente, solo vamos a usar NumPy para eso.

00:27.890 --> 00:33.050
Solo necesitamos importar NumPy como y P, generalmente la referencia común para numpy.

00:33.350 --> 00:37.250
Y también queremos configurar nuestro entorno, como verá aquí.

00:37.520 --> 00:40.430
Y vamos a repasar esto de nuevo muy rápidamente como una descripción general.

00:40.580 --> 00:46.190
El primer paso para nuestro aprendizaje Q es que queríamos encontrar un entorno en el que el cartero tenga que navegar.

00:46.190 --> 00:49.910
Necesitamos ese entorno configurado para que podamos iterar y revisarlo.

00:50.570 --> 00:55.340
En esta conferencia, el entorno consistirá en estados, acciones y recompensas.

00:55.700 --> 01:01.100
Los estados y las acciones son entradas para el agente de aprendizaje Q, mientras que las acciones posibles son

01:01.100 --> 01:06.410
los agentes, las salidas son estados en los que podemos pensar y ver esta imagen como nuestra representación.

01:06.710 --> 01:11.360
Los estados de nuestro entorno son todas las ubicaciones posibles dentro de la ciudad que podemos llamar esta ciudad de

01:11.360 --> 01:11.630
ejemplo.

01:11.960 --> 01:17.810
Algunas de estas ubicaciones son los límites de la ciudad que serán nuestros cuadrados negros, mientras que otras ubicaciones son

01:17.810 --> 01:21.050
islas que el cartero puede usar para viajar por la ciudad.

01:21.050 --> 01:22.310
Esos van a ser los cuadrados blancos.

01:22.820 --> 01:26.750
El cuadrado verde indica el área de embalaje y envío del artículo.

01:27.140 --> 01:31.310
Los cuadrados negros y verdes son lo que llamaremos estados terminales.

01:31.640 --> 01:35.990
Entonces, en general, nuestro objetivo o el objetivo de nuestro agente, queremos usar el camino más corto.

01:35.990 --> 01:41.810
Queremos que nuestro agente aprenda el camino más corto entre el área de empaque del artículo, el frasco, el verde y todos

01:41.810 --> 01:45.050
los demás lugares de la ciudad donde el cartero puede viajar.

01:49.330 --> 01:55.480
En la imagen de arriba, tenemos 121 posibles estados o ubicaciones dentro de la ciudad.

01:55.930 --> 01:58.450
Estos estados están dispuestos en una cuadrícula de 11 por 11.

01:58.750 --> 02:02.140
Cada ubicación se puede identificar por su índice de fila y columna.

02:02.560 --> 02:04.450
Entonces, ¿cuál sería nuestro primer paso?

02:04.450 --> 02:07.660
Y esto es realmente quiero que empiecen a pensar en cómo pueden definirlo.

02:08.470 --> 02:10.340
Necesitamos definir nuestro entorno.

02:10.360 --> 02:13.120
Este es un buen ejemplo de nuestra imagen y de cómo vamos a abordarla.

02:13.120 --> 02:14.440
Entonces, ¿cómo modelarías eso?

02:14.590 --> 02:20.890
Recuerde, estamos usando NumPy, por lo que debemos definir estos límites y podemos definir una matriz numpy 3D para

02:20.890 --> 02:27.010
contener nuestros valores Q actuales para cada par de estado y acción a medida que vemos nuestra representación.

02:27.520 --> 02:32.380
Y para aquellos de ustedes que no están familiarizados con él, o tal vez esto

02:32.380 --> 02:38.110
es nuevo o simplemente quieren refrescarse, el manual Air Z de este curso es extremadamente útil, muy recomendable.

02:38.380 --> 02:39.820
Entonces, ¿qué tenemos que hacer aquí?

02:40.180 --> 02:41.140
En realidad podemos.

02:41.440 --> 02:45.040
Permítanme expandir esto muy rápidamente para que podamos verlo un poco más fácil.

02:45.070 --> 02:46.420
Permítanme agregar algunas celdas de código.

02:46.720 --> 02:48.610
Vamos a definir nuestro imperio 3D.

02:49.480 --> 02:50.770
¿Cómo haría usted para esto?

02:51.280 --> 02:52.900
Así que tenemos algunas opciones.

02:52.900 --> 02:57.070
Pero la opción más directa y simple, llamémosla filas de entorno.

02:59.790 --> 03:01.450
Rose y pongámoslo en 11.

03:01.470 --> 03:02.590
Es un 11 por 11.

03:02.680 --> 03:06.660
Entonces también podemos hacer medio ambiente, columnas de subrayado.

03:08.860 --> 03:10.600
Y también podríamos establecer esto en 11.

03:11.170 --> 03:17.920
Por último, podemos establecer nuestros valores Q ya que necesitamos agregar nuestro numpy con las filas del entorno, las columnas del

03:17.920 --> 03:18.370
entorno.

03:19.910 --> 03:30.260
Y podemos establecer esto como valores Q iguales a ceros NumPy y necesitamos usar nuestras filas de entorno, columnas de

03:30.980 --> 03:31.730
entorno.

03:32.790 --> 03:40.050
Y tenemos nuestra matriz numpy 3D, nuestra representación de entorno 3D configurada con nuestro entorno.

03:41.040 --> 03:41.520
Impresionante.

03:42.330 --> 03:46.440
Ahora vamos a dejarlo aquí, pero quiero que empiecen a pensar en cómo resolver esto ya

03:46.440 --> 03:48.120
que ya tienen su entorno configurado.

03:48.450 --> 03:52.620
Lo siguiente que querrá hacer como sugerencia es configurar sus acciones.

03:52.830 --> 03:55.470
Su agente debe poder moverse por el entorno.

03:55.710 --> 03:57.150
Entonces, ¿cómo representarías eso?

03:57.360 --> 03:58.830
¿Cómo escribirías eso?

03:59.070 --> 04:01.890
Para este problema, dejémoslo aquí.

04:01.890 --> 04:04.650
En el próximo video, revisaremos esas acciones.

04:05.100 --> 04:05.550
Impresionante.

04:05.940 --> 04:06.960
Los veré en el próximo video.