WEBVTT

00:00.620 --> 00:04.010
Hola y bienvenidos al curso de inteligencia artificial.

00:04.010 --> 00:05.940
En el tutorial de hoy nos divertiremos.

00:05.960 --> 00:11.900
Vamos a echarle un vistazo y la inteligencia artificial atraviesa realmente ese laberinto del que hemos estado hablando

00:11.900 --> 00:18.740
durante tanto tiempo y va a utilizar el aprendizaje de matar para navegar en su camino y encontrar la salida y

00:18.830 --> 00:24.350
veremos qué le sucede a la q los valores iban a pasar con la política, etc.

00:24.350 --> 00:26.310
Así que echemos un vistazo.

00:26.330 --> 00:31.910
Vamos a utilizar algunos materiales amablemente proporcionados por la Universidad de Berkeley.

00:31.910 --> 00:40.700
Entonces, si vas a una, no solo Birk the E R K E L E ¿Por qué no vuelves a ese enlace?

00:40.790 --> 00:47.510
Verá este sitio web y escuchará lo que vamos a ver es la necesidad de ir

00:47.550 --> 00:49.130
a proyectos de PacMan.

00:49.130 --> 00:58.160
Creo que los proyectos de Pacman y aquí, si te desplazas hacia abajo y los miras en el primer aprendizaje, esto es con lo que

00:58.160 --> 00:59.050
estamos trabajando.

00:59.180 --> 01:01.700
Entonces aquí puedes descargar el archivo zip.

01:01.700 --> 01:03.500
Así que eso es si quieres.

01:03.530 --> 01:08.330
Entonces, no es necesario, esto es que no vamos a ir juntos a través de una solución en esta versión

01:08.330 --> 01:11.860
de prueba para que sepas de dónde viene todo esto porque nos gusta mucho.

01:11.870 --> 01:12.930
Realmente lo apreciamos.

01:12.980 --> 01:16.180
UC Berkeley ha puesto a disposición estos materiales.

01:16.190 --> 01:19.300
Pero si desea experimentar con esto por su cuenta.

01:19.400 --> 01:20.660
Solo ten en cuenta que esto no es parte.

01:20.680 --> 01:23.310
No va a ser parte de nuestros cursos como parte del curso de Berkeley.

01:23.330 --> 01:27.860
No estoy seguro de cómo funciona con fines ilustrativos, pero si desea experimentar con esto,

01:27.860 --> 01:31.340
puede encontrarlo aquí, el archivo zip y todas las instrucciones anteriores.

01:31.430 --> 01:38.450
que quería mostrarles es que aquí tenemos la información de licencia, así que esto es lo que quiero decir.

01:38.450 --> 01:42.790
Y vamos a entrar en Python de inmediato y lo primero

01:42.870 --> 01:47.720
Somos muy afortunados de que hayan dicho que somos libres de utilizar o ampliar estos proyectos con fines

01:47.720 --> 01:51.120
educativos siempre que sepa distribuir soluciones de publicación que no vamos a hacer.

01:51.200 --> 01:56.750
Usted conserva este aviso que tenemos y usted proporciona un arzobispo claro para UC Berkeley, incluido un enlace al

01:56.780 --> 01:57.860
que también tenemos acceso.

01:57.860 --> 02:00.750
Entonces, una vez más, si desea obtener más información, consulte el enlace.

02:00.770 --> 02:01.720
Puedes echar un vistazo.

02:01.730 --> 02:07.490
Y muchas gracias a todas estas personas que han trabajado en este proyecto así que aquí está el mundo de la cuadrícula.

02:07.490 --> 02:09.370
Vamos a estar trabajando si hay una solución allí.

02:09.460 --> 02:15.110
Tendría que hacerlo para que funcione, tendría que resolverlo usted mismo o posiblemente encontrar una solución.

02:15.110 --> 02:18.980
Tal vez algunas de tus personas, alguien que conoces, te ayuden con eso.

02:19.160 --> 02:24.260
Si de nuevo quieres lo que quieres, no tienes que hacerlo porque ahora solo lo vamos a ver

02:24.320 --> 02:25.110
en esta pantalla.

02:25.160 --> 02:29.720
Entonces, después de que hemos creado todos esos archivos, podríamos simplemente lanzarlo aquí.

02:29.720 --> 02:36.680
Entonces, hay algunos parámetros que están involucrados en este mundo entero y no vamos a mostrar

02:36.680 --> 02:39.080
cómo es si lo lanzamos.

02:39.080 --> 02:41.540
Intentemos iniciarlo en modo manual.

02:41.540 --> 02:47.070
Así que si voy menos uno de estos panoramas son manuales, así que puedo ordenar a su agente de control.

02:47.090 --> 02:52.820
Así que aquí puedes ver todas las cuadrículas para que pueda subir de manera que puedas ver que está tomando medidas comenzando

02:52.820 --> 02:54.980
y comenzó en los estados donde yo estaba.

02:55.100 --> 03:00.650
Y luego viste que presioné, tomé acción Norf y la primera vez terminé en cero una vez

03:00.650 --> 03:01.310
que subí.

03:01.490 --> 03:05.000
Pero la segunda vez que tomé medidas Norf y yo terminamos en el mismo triste no se movió.

03:05.000 --> 03:08.440
Así que algo sucedió, sabes que ocurrió la aleatoriedad. Fui a la izquierda o a la derecha.

03:08.780 --> 03:10.910
Y por defecto los parámetros están establecidos.

03:10.910 --> 03:16.910
Puede ver aquí de forma predeterminada que están configurados exactamente con lo que discutimos y con qué frecuencia resultan realmente

03:16.940 --> 03:18.250
en una dirección involuntaria.

03:18.270 --> 03:20.960
20 por ciento de las veces, a 10 por ciento a la izquierda, a la derecha.

03:21.230 --> 03:23.520
Entonces, si voy y digo que subí, voy directo.

03:23.520 --> 03:26.810
Me fui ahora mismo no sucedió.

03:26.810 --> 03:29.790
Derecha nuevamente y derecha y estoy terminado.

03:29.790 --> 03:35.810
hacer clic de nuevo para salir de esta salida final, así que simplemente haga clic de nuevo y habrá terminado.

03:35.810 --> 03:37.140
Pero en esta implementación debe

03:37.190 --> 03:40.700
Ese es un estado terminal para que podamos ejecutar nuestro manual.

03:40.730 --> 03:45.620
Puedes ver que si voy a la derecha, a la derecha, a la izquierda.

03:45.740 --> 03:50.060
Entonces, aquí lo que vimos anteriormente es que el agente no iría directo hacia la derecha.

03:50.060 --> 03:53.300
¿Cuál es el punto de subir si hay una posibilidad de entrar al pozo?

03:53.300 --> 03:54.580
Entonces, veamos qué haría el agente.

03:54.610 --> 03:56.780
Iría hacia la izquierda y hacia el oeste aquí iría hacia el oeste.

03:56.780 --> 04:00.820
Y ves que hice clic a la izquierda, pero subió y aquí haría clic derecho.

04:00.860 --> 04:05.390
Y termino en la etapa final de salida y ves que la recompensa de Dios es igual a uno.

04:05.390 --> 04:07.190
Así que eso es lo que parece de forma manual.

04:07.190 --> 04:12.520
Ahora conectemos una IA a esto y dejemos que funcione.

04:12.510 --> 04:16.800
Así que hagamos una H aquí y agreguemos un poco de Brandner.

04:16.820 --> 04:24.170
Así que déjame ver lo que escribí aquí, así que con suerte puedes ver por el mundo de la cuadrícula por qué aquí,

04:24.230 --> 04:25.370
menos nuestros medios.

04:25.370 --> 04:27.980
Esa es la recompensa por vivir.

04:27.980 --> 04:31.840
Así que tengo dos de ellos, así que probablemente debería eliminar este.

04:32.190 --> 04:35.050
Entonces, menos k es cuántas iteraciones.

04:35.060 --> 04:36.690
Eso es demasiadas iteraciones.

04:36.690 --> 04:41.180
Hagamos menos. Hagamos como 10 iteraciones deberían ser suficientes.

04:41.180 --> 04:42.710
Menos un es agente.

04:42.710 --> 04:47.040
Qué tipo de agente no quiere hacer honor e imagen y algún valor o una Q.

04:47.060 --> 04:49.120
P Entonces, quiero una Q.

04:49.190 --> 04:57.090
El Q agente de aprendizaje que hace esto menos s es la velocidad s, así que es una fuerza demasiado grande

04:57.090 --> 05:04.780
que solo usa la velocidad máxima por ahora, menos R es una penalización viviente, por lo que por defecto es cero.

05:04.820 --> 05:11.000
Así que recuerde desde el principio reiniciar 0 penitencias de vida así que vamos a llamarlo también 0

05:11.000 --> 05:16.040
0 y puede simplemente eliminar este parámetro y D es lo que es d descuento.

05:16.040 --> 05:20.660
Así que solo tengo en cuenta el factor, así que mantengamos el punto cero y

05:20.660 --> 05:27.880
sea muy similar a lo que comenzamos en esta sección del curso, así que corramos de manera muy rápida otra vez, todo muy bien

05:27.880 --> 05:30.130
para que pueda ver cómo está explorador.

05:30.580 --> 05:35.650
Hasta el momento, ha dado negativo tres veces y se puede ver cómo se actualizan los valores

05:35.650 --> 05:36.690
q en estos cuadrados.

05:36.700 --> 05:37.860
Entonces estos son valores clave.

05:37.870 --> 05:39.310
Son algo así como cero.

05:39.320 --> 05:40.740
Puedes ver ahora el valor Q.

05:40.740 --> 05:45.220
Entonces aprendió que este es un implemento un poco diferente porque una vez que llegas a la etapa

05:45.220 --> 05:46.560
final debes salir de ella.

05:46.660 --> 05:48.990
Solo tiene que hacer clic en un botón más para salir.

05:49.000 --> 05:51.740
Y entonces está muy cerca de uno pero no exactamente uno.

05:51.760 --> 05:57.530
poco a poco el tipo de manos cristalizadas es un punto que un ex colega logra llegar a algún lado, pero están tan

05:57.520 --> 06:02.290
lejos que son una especie de ceros porque no tiene suficiente información para entender lo que está pasando

06:02.290 --> 06:05.470
Pero al mismo tiempo se puede ver que aquí se conoce el valor

06:05.470 --> 06:08.710
OK, veamos qué pasa aquí.

06:10.180 --> 06:13.620
Explorando explorar explorando lo que va a suceder.

06:13.710 --> 06:15.300
Bueno, fue un tiempo.

06:15.670 --> 06:17.940
Y obtenemos esto un poco de azar involucrado aquí.

06:18.100 --> 06:20.100
Entonces hay ese bueno algunas veces.

06:20.110 --> 06:22.500
Ahora solo obtiene 10 iteraciones.

06:22.510 --> 06:26.780
Entonces él tiene que aprender rápido Ok, te necesito allí.

06:27.220 --> 06:29.280
Veamos qué está pasando.

06:29.320 --> 06:30.050
Venga.

06:30.060 --> 06:31.820
Sal de ese laberinto ya.

06:32.840 --> 06:38.450
Y sí, 10 episodios tan promedio que resulta eso.

06:38.590 --> 06:40.430
Eso no está realmente interesado en eso.

06:40.460 --> 06:41.760
Entonces aquí veamos.

06:41.760 --> 06:43.060
Nunca he visto suficiente de un clic.

06:43.100 --> 06:43.460
Derecha.

06:43.460 --> 06:43.810
Aquí vamos.

06:43.820 --> 06:47.780
Entonces puedes ver que esta es la política que se le ocurrió.

06:48.020 --> 06:50.860
Incluso a través de solo 10 episodios ya tiene pulso.

06:50.890 --> 06:55.820
Subiré una bomba y aquí bajaré aquí. Voy a bajar aquí. Entraré en

06:55.820 --> 06:58.320
la pared y luego rebotaré. Estamos aquí.

06:58.550 --> 06:59.620
Eso es muy bonito.

07:00.000 --> 07:00.250
DE ACUERDO.

07:00.260 --> 07:02.530
Entonces, aumentemos la velocidad.

07:02.650 --> 07:04.220
¿Cuál fue el parámetro s allí?

07:04.220 --> 07:06.240
Y eso es como doble anarquía.

07:06.260 --> 07:13.070
Eso es cuádruple la velocidad y aumentemos la cantidad de iteraciones, digamos 20 para racionar esta vez

07:13.070 --> 07:16.390
y veamos si puede superar un poco más ahora.

07:16.790 --> 07:18.700
Entonces puedes ver que va un poco más rápido.

07:19.600 --> 07:25.900
Y está aprendiendo que está aprendiendo que en realidad no sabes que, de este estado, no hay muchas acciones

07:25.900 --> 07:30.220
buenas en estas acciones que las derechas y rectas no sean tan buenas.

07:30.250 --> 07:32.400
Definitivamente esto definitivamente no fue bueno.

07:32.410 --> 07:34.680
Todavía necesita aprender que desde aquí también es bueno.

07:34.680 --> 07:36.820
Puedes ver que esta acción es bastante buena.

07:36.820 --> 07:37.330
Todo bien.

07:37.330 --> 07:38.380
¿Qué obtuvo él?

07:38.530 --> 07:39.100
DE ACUERDO.

07:39.100 --> 07:42.200
Política tan interesante aquí que decidimos subir.

07:42.330 --> 07:43.270
Simplemente no hay suficiente información.

07:43.270 --> 07:45.610
Entonces, realmente vamos a hacer eso.

07:46.850 --> 07:50.370
Y aumentemos la velocidad a 100 como.

07:50.630 --> 07:56.570
Súper rápido y el número de iteraciones le dará 100 iteraciones esta vez se ejecuta

07:56.570 --> 08:02.930
esa escena como loco rápido y se puede ver que hay muchas iteraciones más. Tiene más

08:02.930 --> 08:09.500
información, más oportunidades para experimentar y construir esta matriz o matriz. estos valores para cada estado

08:09.500 --> 08:10.240
individual.

08:10.250 --> 08:13.220
Él ahora sabe que puedes ver ese punto cero ochenta y nueve.

08:13.250 --> 08:16.050
Qué dijimos en nuestro punto cero 86.

08:16.120 --> 08:20.660
Otra cosa para recordar es que el valor de cualquier estado dado.

08:20.720 --> 08:24.230
Recuerde que la fórmula que teníamos era el máximo de los valores del cubo.

08:24.230 --> 08:27.160
Recuerda esa cosa que se nos ocurre con la fórmula de acceso directo.

08:27.170 --> 08:30.690
Entonces, ¿qué es lo que con el valor en este estado sea el V de esto?

08:30.900 --> 08:32.060
Sería 0. 18.

08:32.060 --> 08:37.870
Porque ese es el más alto de los cuatro aquí el valor de este estado 0. 7 quieres el valor de este

08:37.870 --> 08:38.180
día.

08:38.210 --> 08:40.260
¿Hay un punto sesenta uno y así sucesivamente?

08:40.400 --> 08:41.480
Entonces eso es algo para recordar.

08:41.490 --> 08:45.590
Recuerdo cuando estaba levantado, creo que teníamos como cero punto 86 o algo así, precoz.

08:45.770 --> 08:55.060
Y si vamos el próximo año, simplemente desapareceré o desapareceré nuevamente y esto puede hacer que vuelva.

08:55.170 --> 08:55.750
DE ACUERDO.

08:55.760 --> 08:56.210
DE ACUERDO.

08:56.210 --> 09:00.680
Poco a poco lentamente llenando algunos espacios.

09:00.970 --> 09:01.450
Ya veo.

09:01.490 --> 09:06.170
Y también es bastante aleatorio porque no solo el entorno tiene aleatoriedad, sino también la forma en

09:06.170 --> 09:10.750
que explora que la estrella realmente no sabe que la política es que está explorando al azar.

09:11.190 --> 09:12.150
Solo sigue desapareciendo.

09:12.170 --> 09:13.420
No entiendo por qué.

09:13.680 --> 09:18.650
De todos modos, veamos qué pasa si aumenta el número aquí y aquí debería

09:18.650 --> 09:23.060
tomar la misma cantidad de tiempo si la velocidad no tiene un límite.

09:23.480 --> 09:27.610
De acuerdo, es como si tuviera más oportunidades de explorar cosas.

09:27.650 --> 09:30.850
OK, veamos cómo va todo.

09:31.260 --> 09:35.010
Y puedes ver que los valores están convergiendo, suben y bajan dependiendo de que lo sepas, porque hay

09:35.010 --> 09:38.640
algo de aleatoriedad y puede terminar como en el hoyo a pesar de que va de esta manera.

09:38.640 --> 09:44.940
Pero al mismo tiempo están comenzando a converger lentamente hacia algún tipo de valores y valores cue.

09:44.950 --> 09:48.540
OK, probablemente mil sea demasiado en términos de tiempo.

09:48.540 --> 09:53.250
No parece que la velocidad aumente proporcionalmente también.

09:53.610 --> 09:55.560
Entonces podría cortar esa parte.

09:55.650 --> 09:57.560
Me refiero a reducir la velocidad.

09:57.600 --> 10:02.850
Si bien esto es muy bajo, no tienes que mirarlo hasta el final de este

10:02.850 --> 10:08.430
tutorial. Solo quiero experimentar un poco para darte algunos ejemplos de lo que hemos estado trabajando,

10:08.430 --> 10:10.920
pero entiendes que pasa por todo esto.

10:10.950 --> 10:14.800
Tiene algo de azar como el de Rambler en su comportamiento.

10:14.820 --> 10:20.720
Entonces, incluso cuando tiene una política, seguirá explorando, por lo que no solo le dará la sensación de que una vez

10:20.720 --> 10:23.420
que tiene una política básica, no continuará siguiendo su política.

10:23.460 --> 10:29.130
Todavía experimentará con otras variaciones de vez en cuando para mejorar su política, quizás no haya

10:29.130 --> 10:31.350
encontrado la mejor política de inmediato.

10:31.350 --> 10:33.240
Tal vez puede mejorar la política.

10:33.360 --> 10:40.080
Y es por eso que incluso después de tantas iteraciones todavía se pueden ver algunos efectos aleatorios, a veces salta a estados aleatorios

10:40.080 --> 10:45.060
no solo por la aleatoriedad del entorno, sino también porque hay algún nivel, como un parámetro, que

10:45.060 --> 10:50.750
se puede controlar y que se puede configurar. su agente le dice que es lo que usted sabe la mayoría

10:50.820 --> 10:56.040
del tiempo el 80 por ciento del tiempo hace lo que su política le dice que haga, pero

10:56.040 --> 11:00.930
el 20 por ciento de las veces solo tiene un experimento divertido y ve qué sucede y

11:00.930 --> 11:03.410
usa esa información que reúne para actualizar tu política

11:03.410 --> 11:05.300
OK, esto está tomando demasiado tiempo.

11:05.310 --> 11:06.360
Probemos eso de nuevo.

11:06.560 --> 11:11.640
Sí, así es como el agente aprende en diferentes estados.

11:11.640 --> 11:14.270
Tal vez corramos uno más solo por curiosidad.

11:14.280 --> 11:16.590
Entonces, ¿hay algo más que podamos cambiar al respecto?

11:18.420 --> 11:20.110
Iteraciones.

11:21.630 --> 11:22.400
DE ACUERDO.

11:22.430 --> 11:24.280
OK, echemos un vistazo.

11:24.550 --> 11:26.680
Sí, bueno, podríamos cambiar la discusión, por ejemplo.

11:26.680 --> 11:39.860
Entonces, en este caso podríamos decir que K menos cien menos una Q menos dos y menos son OK mil.

11:39.920 --> 11:41.380
Entonces recompensa

11:41.390 --> 11:47.920
Queremos conservarlo tal vez, mantenlo en 0. de esto, mantenga la recompensa en mi punto del desierto cero por cada vez.

11:47.920 --> 11:49.270
04 Pero digamos que, en contra

11:49.280 --> 11:58.340
Y luego vamos a decir que el descuento no es cero punto nueve sino que es como punto cero punto

11:58.340 --> 11:59.030
cinco.

11:59.060 --> 12:02.300
Por lo tanto, se descuentan bastante a medida que avanzas en el juego.

12:02.600 --> 12:08.960
Por lo tanto, ahora se incentivará estar más cerca del final en lugar de una ruta adicional. Los estados cercanos al

12:08.960 --> 12:14.060
final obtendrán un valor alto para que pueda ver que los valores realmente disminuyen, no es tan

12:14.060 --> 12:15.400
verde como lo era antes.

12:16.360 --> 12:20.190
Entonces aquí puedes ver que esta es la política ahora.

12:20.380 --> 12:26.490
Así que es algo así como eso, muy similar a lo que vimos antes, probablemente solo las

12:26.500 --> 12:28.830
diferencias aquí salten directamente hacia aquí.

12:28.840 --> 12:29.980
Entonces ese es uno.

12:30.000 --> 12:32.500
Y OK, corramos uno más.

12:32.500 --> 12:33.510
Esto es tan divertido.

12:33.580 --> 12:39.020
Vamos a ejecutar uno más, así que k menos k 100 a q descartar.

12:39.130 --> 12:48.960
Guárdelo como era original Así que simplemente ejecutemos esta configuración básica de vainilla, ok ok ok.

12:49.110 --> 12:51.110
Veremos si nos mostrará la política.

12:51.210 --> 12:54.820
Y sí, tenemos la política.

12:54.840 --> 12:55.150
Sí.

12:55.150 --> 12:56.350
Buen final.

12:56.350 --> 12:58.820
Entonces aquí tenemos la política.

12:58.900 --> 12:59.830
Sabes que esto es familiar.

12:59.830 --> 13:05.260
Recuerda esa vez cuando vimos que la IA engañó a la bomba humana contra la pared para ir allí y

13:05.290 --> 13:08.530
saltar hacia la pared para avanzar así y así aumentar el problema.

13:08.530 --> 13:09.270
Entonces ahí vamos

13:09.280 --> 13:17.020
Ese es un ejemplo de inacción de la inteligencia artificial. Ganancias de matanza simples muy muy básicas, por lo que no hay aprendizaje

13:17.020 --> 13:18.190
profundo en esta etapa.

13:18.610 --> 13:23.810
Pero al mismo tiempo ya es bastante inteligente y espero que hayan disfrutado el tutorial de hoy.

13:23.810 --> 13:29.210
Y una vez más, gracias a la Universidad de Berkeley y espero que hayan disfrutado el tutorial de hoy y espero que

13:29.230 --> 13:29.630
los vean.

13:29.650 --> 13:31.120
Hasta entonces, disfruta de la IA.