WEBVTT

00:00.630 --> 00:03.850
Hola y bienvenidos al curso de inteligencia artificial.

00:03.990 --> 00:09.260
En el tutorial de hoy estamos comenzando la sección sobre el aprendizaje genial convolucional profundo.

00:09.420 --> 00:11.010
Así que echemos un vistazo a lo que se trata.

00:11.010 --> 00:14.040
Anteriormente hablamos sobre el aprendizaje profundo y genial.

00:14.040 --> 00:21.270
Entonces teníamos un entorno donde un agente y teníamos un vector que describía ese entorno que se alimentaba en

00:21.270 --> 00:26.310
una red neuronal y al final obtuvimos los valores q como nuestros resultados.

00:26.310 --> 00:29.970
Y luego, por supuesto, descubrimos cómo restringir la parte de aprendizaje.

00:29.970 --> 00:34.650
Descubrimos cómo se deciden las acciones basadas en esos valores que son una parte de acción.

00:34.650 --> 00:42.380
Y hablamos sobre políticas de selección de acción y diferentes cosas sobre cómo funciona el aprendizaje profundo.

00:42.420 --> 00:51.240
Pero aquí el concepto clave para todo esto es cómo logramos desde el entorno real y

00:51.240 --> 00:54.450
los estados hasta la red neuronal.

00:54.480 --> 00:56.190
Bueno, la transición ha terminado aquí.

00:56.220 --> 01:02.250
Los vectores de entrada por lo que la entrada Lehre de nuestra red neuronal y es un vector.

01:02.250 --> 01:06.570
Entonces, lo que estamos viendo está bien, así que estamos avanzando en la curva.

01:06.600 --> 01:08.830
Ese no es el término correcto, no estamos viendo nada.

01:08.940 --> 01:12.330
El agente básicamente tiene esta información.

01:12.330 --> 01:18.490
Entonces, el entorno está analizando esta información diciendo "OK, el agente en el que se encuentra actualmente en este

01:18.560 --> 01:26.160
estado es descrito por el sector" en este ejemplo simplificado que describe este vector X-1 de 1 x 2 de 2, por lo que

01:26.160 --> 01:31.410
sus coordenadas son 1 2 y ese es todo tu estado en un entorno más complejo.

01:31.410 --> 01:37.920
La declaración y todas las otras cosas que el agente puede estar observando, pero el punto aquí es que se

01:37.920 --> 01:39.040
plantea como un vector.

01:39.240 --> 01:45.750
Y la cosa es que eso no sucede en la vida real en la vida real a excepción de los sistemas de GPS y otras cosas

01:45.780 --> 01:46.470
por el estilo.

01:46.530 --> 01:51.830
Pero en la vida real, ¿qué usamos la mayoría de las veces que usamos nuestros sentidos? Usamos nuestros ojos incluso en el GPS.

01:51.930 --> 01:53.670
No está incorporado en nuestro cerebro.

01:53.670 --> 01:56.420
No nos está diciendo las coordenadas a través de nuestro cerebro.

01:56.430 --> 02:02.880
Así que todavía estamos usando nuestros ojos para mirar el GPS y entender qué está pasando allí.

02:02.910 --> 02:09.310
Y esto es una especie de trampa para que la IA pueda obtener información sobre el medio ambiente como

02:09.310 --> 02:09.620
vector.

02:09.620 --> 02:12.030
Es muy simple, no es así como funciona en la vida real.

02:12.030 --> 02:17.040
Así no es como nosotros, como humanos, operamos y, en última instancia, queremos crear inteligencia artificial que pueda

02:17.340 --> 02:23.310
funcionar de manera similar a la de los humanos, ya que es capaz de enfrentar los mismos desafíos que los humanos.

02:23.320 --> 02:28.740
Y así en el mundo humano no tenemos que no tengamos que no tenemos estas coordenadas u otros

02:28.740 --> 02:33.870
tipos de vectores que nos pasan que explican el estado en que nos encontramos en ese entorno.

02:33.870 --> 02:37.350
Así que vamos a tener que eliminar eso para hacerlo más realista.

02:37.410 --> 02:42.180
Y luego, ¿qué podemos reemplazar con lo que vemos o qué hacemos como humanos para obtener información?

02:42.180 --> 02:46.860
Bueno, la mayor parte del tiempo vemos, por supuesto, todos nuestros sentidos, pero la mayor parte de

02:46.860 --> 02:51.300
la información que estamos obteniendo sobre el mundo que nos rodea viene a través de nuestra vista.

02:51.510 --> 02:59.340
Y es por eso que vamos a cambiar esa pequeña flecha que teníamos en una red neuronal

02:59.340 --> 03:00.090
convolucional completa.

03:00.090 --> 03:02.700
Entonces esto es de nuestro Onix.

03:02.700 --> 03:08.400
Número dos tenemos la convulsión de Larry y es por eso que es importante estar bastante cómodo con las redes

03:08.460 --> 03:13.290
neuronales condicionales de evolución y cómo funciona eso si ha hecho las relaciones sexuales con PAO y

03:13.350 --> 03:14.910
debería sentirse cómodo con eso.

03:14.930 --> 03:20.490
O simplemente puede ver el siguiente número dos, tenemos algunos muy buenos tutoriales de intuición allí.

03:20.670 --> 03:26.160
Así que aquí tenemos la operación convolucional que sucede, así que de hecho vamos a ver

03:26.160 --> 03:27.330
esto como una imagen.

03:27.330 --> 03:31.350
Entonces esta es una imagen del entorno Net.

03:31.350 --> 03:33.990
Y entonces el agente está realmente mirando el medio ambiente.

03:33.990 --> 03:39.870
Entonces, en este caso, no es que él parezca mirar desde adentro, sino que se ve así.

03:39.930 --> 03:44.710
Digamos que está jugando esto en una computadora y puede ver este entorno y, por

03:44.760 --> 03:48.480
lo tanto, puede ver dónde está realmente esta figura representando al agente.

03:48.480 --> 03:53.340
Puedes verlo todo en viral o lo que un humano vería si fuera un laberinto real y el humano vería

03:53.340 --> 03:54.270
el laberinto desde adentro.

03:54.270 --> 03:56.480
Y entonces el agente debería ser capaz de exactamente lo mismo.

03:56.700 --> 04:03.000
sobre estas diferentes partes de una red neuronal convolucional en el anexo y luego aplanar a los oficiales.

04:03.030 --> 04:10.140
Entonces, lo que dice que está hecho pasa por una guarida de conmoción, te vuelves loco tirando de una pierna,

04:10.140 --> 04:12.680
allí aplanando de nuevo, puedes descubrir más

04:12.690 --> 04:19.950
Luego tenemos entradas que entran en la red neuronal y esta es una forma más realista porque el agente

04:19.950 --> 04:29.010
tiene que usar sus sitios y / o tiene que procesar las imágenes que el entorno está suministrando al agente, del mismo modo

04:29.400 --> 04:31.590
que un humano estaría procesando imágenes.

04:31.590 --> 04:37.410
Y la belleza de esto no es solo que es más realista y es más como un tono.

04:37.410 --> 04:43.280
La edad es, en realidad, tanto más humana, pero nos permite procesar entornos mucho más complejos.

04:43.380 --> 04:49.050
la inteligencia artificial a cualquier entorno que, como humanos, tengamos una visión de es y.

04:49.050 --> 04:55.980
Por ejemplo, así es como podemos jugar a Doom u otros juegos así porque en lugar de obtener

04:56.080 --> 05:02.230
un vector de información que, como alguien habría creado para nosotros en este entorno, podemos conectar

05:02.430 --> 05:08.280
Como ser humano, cuando juegas a este juego puedes ver exactamente esta imagen y eso es exactamente

05:08.760 --> 05:12.450
lo que la red neuronal artificial o el agente verían ahora.

05:12.540 --> 05:17.580
Entonces, en esta parte del curso, cuando vayas a sondear los Tournelles prácticos, el agente realmente

05:17.580 --> 05:22.890
verá esta imagen exacta, verá los píxeles obtendrá esta imagen exacta llena de los píxeles de esta

05:22.890 --> 05:28.410
persona con esto hemos ido con esta cara con este porcentaje, con todo exactamente lo que vemos aquí,

05:28.410 --> 05:30.710
eso es exactamente lo que verá el agente.

05:30.870 --> 05:37.470
Luego tendrá que diseccionar eso a través del engorde liff y luego irá a una red neuronal.

05:37.650 --> 05:42.150
Y no hace falta decir que las redes neuronales en realidad son mucho más complejas que eso, así que reemplácelas con

05:42.150 --> 05:42.780
algo como esto.

05:42.780 --> 05:44.480
Esto no es mucho más complejo.

05:44.520 --> 05:49.350
Esto se ve un poco más complejo, pero en realidad las redes neuronales van a estar trabajando

05:49.380 --> 05:54.140
y creando si vas a ser bastante interesante y vas a ser mucho más complejo que esto.

05:54.150 --> 05:59.910
Pero como puede ver aquí incluso si solo tiene cinco entradas y una especie de dos cosas se vuelven mucho

05:59.970 --> 06:04.380
más complejas y aquí puede ver que tenemos muchas más acciones que el agente puede tomar.

06:04.380 --> 06:10.850
Entonces, en el juego de Doom, gire a la izquierda y a la derecha, mire hacia abajo para ver la recarga de disparos de Ron.

06:10.890 --> 06:16.290
O usted sabe que todas esas diferentes acciones que son posibles en primera persona deberían gustarle.

06:16.290 --> 06:19.430
Y, además, no tiene que ser lo que puedas.

06:19.430 --> 06:23.190
Puede tocar este agente para otro tipo de juego.

06:23.190 --> 06:29.940
Esa es la belleza que se da cuenta de que ahora puede operar cualquier tipo de entorno al que

06:29.940 --> 06:34.260
lo conecte, ya que mientras haya una representación visual del entorno de

06:34.680 --> 06:39.940
ese entorno, ya tiene toda la infraestructura, toda la estructura está lista para procesar. ese.

06:39.960 --> 06:43.980
Así que de eso se trata el profundo aprendizaje CULE convolucional.

06:43.980 --> 06:51.120
Así que lo estamos llevando al siguiente paso: estamos agregando convoluciones o convolucionales Lares en el cerebro

06:51.120 --> 06:58.980
de nuestros agentes ahora y lo estamos haciendo aún más complejo y, por lo tanto, podemos estar aburridos de

06:58.980 --> 07:01.260
poder resolver incluso más complejos desafíos.

07:01.410 --> 07:06.720
Así que espero que estés muy emocionado de que esto vaya a ser en una sección épica y vamos a

07:06.720 --> 07:10.460
crear algunas cosas increíbles y no puedo esperar para verte en el próximo tutorial.

07:10.480 --> 07:12.130
Y hasta entonces, disfruta de la IA.