WEBVTT

00:00.450 --> 00:02.520
Hola y bienvenido a este tutorial.

00:02.520 --> 00:06.140
Ahora que tenemos nuestra IA, está lista para ser entrenada.

00:06.330 --> 00:09.660
Y el primer paso del entrenamiento es establecer nuestra experiencia de reproducción.

00:09.900 --> 00:11.330
Así que lentamente estamos llegando allí.

00:11.340 --> 00:16.690
La capacitación y las buenas noticias son que tenemos una versión implementada de la repetición de experiencia.

00:16.830 --> 00:23.490
Además de eso, está adaptado a la trazabilidad de elegibilidad, que recuerdo es una técnica que, en lugar de

00:23.490 --> 00:27.160
aprender los valores q, cada transición la aprende cada 10 transiciones.

00:27.210 --> 00:29.460
Básicamente, eso es exactamente lo mismo que antes.

00:29.490 --> 00:35.190
Pero en lugar de tener un solo objetivo una sola palabra para cada paso, vamos a tener un objetivo

00:35.190 --> 00:40.770
acumulativo de diez pasos y una recompensa acumulada de 10 pasos y cada vez aprenderemos los 10 pasos.

00:40.980 --> 00:44.960
Así que estamos aprendiendo sobre transiciones de 10 pasos en lugar de uno como antes.

00:45.180 --> 00:50.440
Y con esto haré maravillas y eso hará algunas maravillas para el proceso de capacitación.

00:50.440 --> 00:52.570
Usted sabe que el entrenamiento tomará mucho menos tiempo.

00:52.620 --> 00:58.850
Gracias a esta técnica, pero tenemos que especificar la repetición de inexperiencia que estamos aprendiendo cada 10 pasos.

00:58.980 --> 01:04.230
Por eso, esta repetición de experiencia no es una implementación clásica de la repetición de experiencia.

01:04.320 --> 01:06.160
Como hacer uno para el auto sin conductor.

01:06.210 --> 01:12.540
Es una implementación de la experiencia de reproducción teniendo en cuenta estos 10 pasos de aprendizaje y por lo tanto

01:12.540 --> 01:19.110
encontrará en esta experiencia el archivo de dos clases de una clase que hace que su progreso de AI haga diez

01:19.110 --> 01:23.460
pasos para que pueda sumar las recompensas que se observan en estos 10 pasos.

01:23.460 --> 01:28.430
Esa es la primera clase y necesitamos esta clase porque necesitamos incluir estos 10 pasos en la clase de memoria

01:28.430 --> 01:33.570
de repetición, que es la implementación en el aula para la experiencia que jugamos y así es como nos aseguramos

01:33.630 --> 01:38.020
de que la memoria también tenga en cuenta el hecho de que estamos aprendiendo en 10 pasos.

01:38.040 --> 01:42.660
Es por eso que encontrarás dos clases en esta implementación de la repetición de experiencia, pero

01:42.660 --> 01:49.070
eso solo es para tener en cuenta que estamos aprendiendo en 10 pasos y eso debe tenerse en cuenta también en la memoria.

01:49.410 --> 01:51.940
Entonces, hablando de nuestra memoria, vamos a crearlo.

01:51.970 --> 02:00.150
Vamos a llamar a nuestra memoria y la memoria va a ser un objeto del molde de memoria de reproducción y la clase de memoria

02:00.570 --> 02:04.900
de reproducción es una clase de esta experiencia de reproducción en este momento.

02:05.070 --> 02:14.430
Y entonces me llevo primero esta experiencia sentida de la conducta de la repetición y es ahí donde tomo la clase de memoria

02:15.180 --> 02:15.880
de repetición.

02:15.960 --> 02:16.840
Perfecto.

02:16.890 --> 02:23.460
Y ahora puede ver que tenemos que poner dos argumentos en el primer argumento y pasos que corresponden exactamente al

02:23.640 --> 02:27.540
número de pasos en los que vamos a aprender los valores clave.

02:27.540 --> 02:32.090
Entonces sabes la cantidad de pasos en los que acumulamos el objetivo y queremos.

02:32.180 --> 02:37.290
Vamos a tener un objetivo acumulativo y la recompensa acumulada y luego el segundo argumento es la

02:37.290 --> 02:39.840
capacidad que tiene el tamaño de la memoria.

02:39.840 --> 02:42.650
Entonces, por ejemplo, aquí podemos ver diez mil.

02:42.810 --> 02:48.270
Entonces, si la capacidad es igual a 10000 eso significa que tendremos un tamaño de 10000

02:48.270 --> 02:54.210
y, por lo tanto, eso significa que obtendremos un recuerdo de los 10000 pasos realizados por el ojo.

02:54.390 --> 02:57.390
Pero nuevamente no vamos a aprender cada transición.

02:57.390 --> 03:02.690
pasos de la memoria y esa es exactamente la nueva característica que presentamos aquí en comparación con la anterior.

03:02.700 --> 03:06.100
Vamos a aprender cada diez pasos a lo largo de estos últimos 10000

03:06.180 --> 03:12.480
Antes solo teníamos este truco de memoria de repetición y aquí tenemos este truco de memoria de repetición más este truco

03:12.570 --> 03:16.920
que aprendí cada diez pasos y vamos a aprender cada diez pasos y vamos

03:16.920 --> 03:20.000
a hacerlo en la memoria compuesta por últimos 10000 pasos.

03:20.190 --> 03:27.810
Y esto es una repetición experimentada combinada con rasgos de inelegibilidad con 10 pasos que mejorarán considerablemente el

03:27.810 --> 03:29.240
rendimiento del entrenamiento.

03:29.490 --> 03:31.130
Entonces terminemos con estos dos argumentos.

03:31.200 --> 03:35.900
El primero es y los pasos y eso será igual a.

03:36.030 --> 03:43.180
Pero, por ahora, digamos y los pasos especificarán qué paso es justo después de que realmente será un abyecto de

03:43.360 --> 03:49.130
la otra clase de este archivo de reproducción de experiencia que es la clase de progreso

03:49.140 --> 03:52.170
final y que permite avanzar durante diez pasos.

03:52.170 --> 03:57.990
Y recuerde que durante los 10 pasos haremos sonar las palabras en los diez pasos para obtener las

03:58.050 --> 03:59.550
recompensas acumuladas en 10 pasos.

03:59.550 --> 04:02.250
Y esa es exactamente la prueba de elegibilidad.

04:02.250 --> 04:09.350
Entonces, lo que tenemos que hacer es crear estos pasos aquí y lo creamos con la segunda clase que tenemos en este

04:09.360 --> 04:13.040
archivo de reproducción de experiencia, que es el progreso del paso.

04:13.160 --> 04:24.430
Así que ahora vamos a crear pasos de este y este será un objeto de la clase de progreso

04:24.430 --> 04:30.650
paso que tomamos de nuevo de nuestra experiencia que jugamos.

04:30.940 --> 04:31.720
Aquí vamos.

04:31.840 --> 04:37.160
Así que esa es la clase anti-progreso y ahora tenemos que poner tres argumentos, ya que puedes ver

04:37.180 --> 04:41.010
que tenemos que poner el entorno, que es el entorno que importamos aquí.

04:41.230 --> 04:47.680
Entonces, el segundo argumento es nuestra IA y esta será, por supuesto, la IA que

04:47.830 --> 04:55.550
construimos aquí mismo en la U. S. y el último argumento es un paso en este punto, donde especificaremos que

04:55.570 --> 04:59.120
queremos 10 pasos que usted sepa que debe aprender cada 10 pasos, es decir, cada 10 transiciones.

04:59.200 --> 05:01.140
Así que ayudemos con estos argumentos.

05:01.180 --> 05:06.920
El primero es el medio ambiente y eso es fatalidad y está bien.

05:06.940 --> 05:11.700
Entonces, el segundo es nuestra AI AI y que contamos ai ai.

05:11.830 --> 05:12.720
Esa es la de aquí.

05:12.760 --> 05:17.590
Así que este es solo el nombre del argumento de la clase de progreso paso y este ai ai.

05:17.590 --> 05:19.730
Aquí está nuestro ai ai.

05:19.750 --> 05:27.150
El que construimos y luego el último argumento es y apila y eso es igual a 10.

05:27.160 --> 05:27.910
Todo bien.

05:27.910 --> 05:33.670
Entonces, en este momento solo estamos teniendo en cuenta en la memoria que hay un aprendizaje en 10 pasos

05:33.670 --> 05:37.210
y este aprendizaje en 10 pasos se denomina seguimiento de elegibilidad.

05:37.240 --> 05:39.520
Así que realmente estamos trabajando en lo avanzado aquí.

05:39.640 --> 05:44.160
Pero recuerda que es porque estamos tratando de ser Dume que no es nada como hacer un pedazo de la torta.

05:44.290 --> 05:47.650
Entonces, necesitamos estas técnicas avanzadas para que funcione.

05:47.660 --> 05:48.880
Entonces ahora estamos casi listos.

05:48.880 --> 05:55.450
capacidad, por supuesto, digamos 10000 hombres, tendremos un tamaño de 10000, lo que significa

05:55.450 --> 06:03.730
que la memoria contendrá la última 10000 pasos realizados por la IA y eso nos permitirá generar muchos.

06:03.730 --> 06:11.470
Antes de pasar al siguiente paso, que en realidad consistirá en implementar bandejas LGBT, lo único que

06:11.500 --> 06:13.810
tenemos que incluir es la

06:13.930 --> 06:16.020
Como recuerdo, fue una función simple.

06:16.180 --> 06:22.840
Usted sabe que la memoria contiene 10000 transiciones, pero para entrenar el ojo, vamos a muestrear tantos lotes de

06:22.840 --> 06:28.360
diez transiciones, no una en comparación con las 10 transiciones anteriores, y vamos a probar estos

06:28.360 --> 06:33.490
mini lotes de 10 transiciones en la memoria compuesta por los 10000 pasos .

06:33.490 --> 06:38.770
Muy bien, así que ahora creo que estamos listos para pasar al próximo paso, que consiste en implementar el

06:38.770 --> 06:39.490
seguimiento de elegibilidad.

06:39.520 --> 06:41.680
Así que vamos a tener algo de aventura aquí.

06:41.680 --> 06:43.690
Esto no será una implementación simple.

06:43.720 --> 06:47.830
Así que tómate un buen descanso y cuando estés listo podremos atacar esto.

06:47.920 --> 06:49.120
Y entonces, disfruta.