WEBVTT

00:00.830 --> 00:03.830
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.830 --> 00:08.120
Vì vậy, chúng tôi đã nói về phương trình Belmont và chúng tôi đã phân tích mê cung nhỏ của chúng tôi.

00:08.300 --> 00:10.760
Chúng ta hãy nhìn vào kế hoạch.

00:10.880 --> 00:12.200
Kế hoạch là gì?

00:12.500 --> 00:14.570
Đây là phân tích mê cung của chúng tôi.

00:14.570 --> 00:19.430
Và chúng tôi biết rằng chúng tôi có thể nhìn thấy thực sự các trạng thái, các giá trị của mỗi trạng thái.

00:19.430 --> 00:22.760
Chúng ta có thể thấy giá trị của việc tồn tại ở mọi trạng thái là gì.

00:23.060 --> 00:27.530
Và do đó, tôi có thể hoặc người đại diện có thể điều hướng mê cung này.

00:27.530 --> 00:28.730
Vậy kế hoạch là gì?

00:28.730 --> 00:33.830
Chà, kế hoạch đơn giản giống như một bản đồ kho báu cho trí tuệ nhân tạo.

00:34.190 --> 00:40.400
Thay vì xem xét các giá trị này, chúng ta hãy thay thế chúng bằng các mũi tên cho biết tác nhân nên đi theo hướng nào vì

00:40.400 --> 00:43.340
các giá trị đó, bởi vì nó biết các giá trị đó.

00:43.340 --> 00:49.070
Vì vậy, một kịch bản lý tưởng, sau khi nó khám phá môi trường này, nó biết các giá trị của mỗi trạng thái, và do đó

00:49.070 --> 00:50.810
nó có thể đưa ra bản đồ này.

00:50.810 --> 00:51.800
Vì vậy, chúng ta hãy xem xét.

00:51.800 --> 00:54.260
Một lần nữa, chúng ta biết rằng ở đây giá trị là một.

00:54.260 --> 00:57.770
Vì vậy, nếu bạn ở đây trong số hai, thì tốt hơn là cái này.

00:57.770 --> 01:00.080
Vì vậy, bạn đi ngay từ đây ra khỏi hai.

01:00.110 --> 01:00.890
Đây là một cái tốt hơn.

01:00.890 --> 01:01.790
Đây là một cái tốt hơn.

01:01.820 --> 01:02.690
Đây là một cái tốt hơn.

01:02.690 --> 01:04.660
Hoặc thực ra, từ đây bạn có hai lựa chọn, phải không?

01:04.670 --> 01:06.830
Vì vậy, đây là một loại giống như một cà vạt.

01:06.860 --> 01:12.200
Vì vậy, bạn chỉ cần chọn một cách ngẫu nhiên, không quan trọng cái nào, bởi vì giá trị trong những thứ này trong cả hai trường hợp

01:12.200 --> 01:12.860
là như nhau.

01:12.860 --> 01:17.540
Và hơn thế nữa, ngay cả khi chúng ta xem qua, nó sẽ cần cùng một số bước, cùng một số bước để đi

01:17.540 --> 01:18.290
đến cuối cùng.

01:18.500 --> 01:22.490
Từ đây, bạn có ba tùy chọn, nhưng tùy chọn này là giá trị tốt hơn từ đây.

01:22.490 --> 01:24.170
Đây là một giá trị tốt hơn từ đây.

01:24.200 --> 01:28.880
Rõ ràng, đây là một giá trị tốt hơn bởi vì ở đây, bạn chỉ nhận được một phần thưởng trừ đi ngay lập tức.

01:29.480 --> 01:31.880
Và từ đây bạn thực sự có ba cái.

01:31.880 --> 01:35.150
Vì vậy, nhưng cái này là cái tốt nhất trong số họ, giá trị tốt nhất của nhà nước.

01:35.240 --> 01:41.000
Và do đó, nếu chúng ta thay thế chúng bằng các mũi tên, có nghĩa là đây là cách tác nhân sẽ đi nếu nó bắt đầu ở

01:41.000 --> 01:45.890
đây hoặc nếu vì lý do nào đó nó kết thúc ở hình vuông này, nó biết cách thoát khỏi đây và nó

01:45.890 --> 01:46.990
bắt đầu trong Quảng trường.

01:46.990 --> 01:48.890
Nó biết cách thoát khỏi đây và vân vân.

01:48.890 --> 01:51.350
Vì vậy, đó là những gì một kế hoạch.

01:51.350 --> 01:56.300
Và đừng nhầm lẫn giữa kế hoạch với chính sách vì chúng ta sẽ nói thêm về các chính sách.

01:56.300 --> 02:01.220
Các chính sách rất giống với các kế hoạch, nhưng chúng có một mẹo nhỏ đối với chúng vì môi

02:01.220 --> 02:05.600
trường sẽ khác một chút, nó sẽ là ngẫu nhiên, và đó là những gì chúng ta

02:05.600 --> 02:07.430
sẽ nói trong hướng dẫn tiếp theo.

02:07.760 --> 02:09.950
Vì vậy, tôi rất nóng lòng được gặp các bạn vào chương trình tiếp theo.

02:09.950 --> 02:11.600
Và cho đến khi đó, hãy tận hưởng.

02:11.600 --> 02:12.110
TÔI.
