WEBVTT

00:00.990 --> 00:04.140
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:04.140 --> 00:07.110
Hôm nay chúng ta đang nói về án phạt sống.

00:07.440 --> 00:07.800
Được rồi.

00:07.800 --> 00:09.690
Vì vậy, ở đây chúng tôi đã có phương trình bellman của chúng tôi.

00:09.690 --> 00:15.900
Và khi trải qua khóa học này, chúng tôi đang dần làm cho nó ngày càng phức tạp hơn.

00:15.900 --> 00:19.890
Cho đến nay, chúng tôi đã thêm các xác suất này vào đây.

00:19.890 --> 00:22.670
Và chúng tôi cũng đã thêm yếu tố chiết khấu.

00:22.680 --> 00:27.780
Bây giờ chúng ta sẽ xem xét chi tiết hơn ở phía này của phương trình mà chúng ta có phần thưởng.

00:27.930 --> 00:33.840
Bây giờ, hãy nhớ lại trước đây khi chúng ta nói về cách hoạt động của việc học tăng cường, chúng ta đã nói

00:33.840 --> 00:40.440
rằng chúng ta có một tác nhân và nó thực hiện các hành động trong môi trường và để đổi lại hoặc kết quả là nó có

00:40.440 --> 00:45.060
được trạng thái mới mà hiện tại nó đang ở và phần thưởng cho hành động đó.

00:45.390 --> 00:51.630
Chà, cho đến nay trong ví dụ của chúng ta, chúng ta chỉ nhận được phần thưởng cuối cùng, nếu chúng ta về

00:51.630 --> 00:57.840
đích hoặc nếu chúng ta, đối với đặc vụ kết thúc trong hố lửa, anh ta được cộng một hoặc trừ một

00:57.840 --> 00:58.590
phần thưởng.

00:58.680 --> 01:02.640
Nhưng đó là một cách tiếp cận rất đơn giản để học tăng cường.

01:02.640 --> 01:09.090
Và trong các tình huống thực tế hơn, bạn có thể sẽ có phần thưởng trong suốt cuộc hành trình, không chỉ ở

01:09.090 --> 01:09.720
phần cuối.

01:09.720 --> 01:11.310
Bạn có thể có phần thưởng trong suốt cuộc hành trình.

01:11.310 --> 01:20.400
Ví dụ: nếu đó là một AI chơi trong một trò chơi và nếu chẳng hạn như bắn ai đó trong Doom, nó có thể nhận được điểm khi

01:20.400 --> 01:28.530
giết kẻ thù đó hoặc có thể trong một trò chơi khác nếu nó vượt qua một chiếc xe khác hoặc một cái gì đó

01:28.530 --> 01:30.090
tương tự cái đó.

01:30.090 --> 01:35.340
Chỉ vì luật chơi, không phải vì cách phân tích trò chơi của nó.

01:35.340 --> 01:41.100
Nhưng trên thực tế, trò chơi được cấu trúc theo cách củng cố điểm cộng cho việc thực hiện một số hành động nhất định

01:41.100 --> 01:43.080
ngay cả trước khi trò chơi kết thúc.

01:43.320 --> 01:48.180
Vì vậy, những tình huống như thế là rất phổ biến, không chỉ trong trò chơi và cả trong cuộc sống thực.

01:48.270 --> 01:54.090
Và đó là lý do tại sao chúng tôi sẽ giới thiệu một cái gì đó tương tự vào ví dụ của chúng tôi, một

01:54.090 --> 02:00.060
phiên bản đơn giản của điều đó, nhưng tuy nhiên, phần thưởng liên tục được trao cho nhân viên trong suốt trò chơi, không chỉ ở

02:00.060 --> 02:00.630
phần cuối.

02:00.630 --> 02:04.320
Và cách chúng ta sẽ làm là nhìn vào các ô khác.

02:04.320 --> 02:09.990
Vì vậy, hiện tại chúng ta chỉ có phần thưởng cộng một ở ô cuối cùng và phần thưởng trừ đi một phần ở ô

02:09.990 --> 02:11.310
cuối cùng khác, hố lửa.

02:11.550 --> 02:17.700
Nhưng bây giờ chúng tôi sẽ thêm phần thưởng vào mỗi lần chúng tôi thêm một phần thưởng rất nhỏ, nó sẽ là -0. 04.

02:17.700 --> 02:18.840
Và như bạn có thể thấy, nó tiêu cực.

02:18.840 --> 02:23.100
Vì vậy, mỗi khi đại lý di chuyển, anh ta sẽ nhận được một phần thưởng âm.

02:23.100 --> 02:27.570
Và đó là lý do tại sao nó được gọi là hình phạt sống, bởi vì bất kể anh ta đi đâu, anh ta sẽ luôn nhận được

02:27.570 --> 02:30.780
phần thưởng âm này ngoại trừ những ô cuối cùng này, bởi vì đó là kết thúc của trò chơi.

02:31.050 --> 02:35.100
Và vì vậy, ở đây bạn có thể thấy phần thưởng ngay cả trên ô này là -0. 04.

02:35.100 --> 02:37.860
Nhưng điều đó không có nghĩa là anh ấy bắt đầu với phần thưởng đó.

02:37.860 --> 02:39.450
Anh ta chỉ nhận được phần thưởng này.

02:39.450 --> 02:41.370
Và điều này là quan trọng cần nhớ.

02:41.370 --> 02:43.680
Anh ta chỉ nhận được phần thưởng này khi anh ta nhập một ô.

02:43.680 --> 02:46.050
Vì vậy, bất cứ khi nào anh ta thực hiện một hành động, anh ta sẽ đến đây.

02:46.290 --> 02:49.770
Sau đó anh ta sẽ nhận được phần thưởng -0 này. 04.

02:49.770 --> 02:53.370
Và sau đó nếu anh ta quay lại ô này, anh ta sẽ nhận được -0 khác. 04 phần thưởng.

02:53.550 --> 02:58.080
Và vì vậy anh ta càng đi bộ lâu, anh ta càng tích lũy được phần thưởng tiêu cực này.

02:58.080 --> 03:03.600
Và do đó, đó là một động lực để anh ta kết thúc trận đấu sớm hơn, càng nhanh càng tốt.

03:03.720 --> 03:10.350
Và vì vậy, bây giờ chúng ta hãy xem chính sách của chúng tôi hoặc chính sách đại lý sẽ thay đổi như thế nào

03:10.350 --> 03:14.010
tùy thuộc vào giá trị mà chúng tôi đặt cho phần thưởng này.

03:14.100 --> 03:18.810
Vì vậy, đây là bốn môi trường và trong mỗi môi trường, chúng ta sẽ khám phá một phần thưởng khác nhau.

03:18.810 --> 03:23.700
Bây giờ, chúng ta sẽ không tính toán, chúng ta chỉ dự đoán kết quả và bạn sẽ thấy điều đó

03:23.700 --> 03:24.720
một cách trực quan.

03:24.720 --> 03:25.650
Chúng hoàn toàn có ý nghĩa.

03:25.650 --> 03:32.760
Vì vậy, ở đây chúng tôi có phần thưởng cho bất kỳ bước nào hoặc bất kỳ phần thưởng nào cho việc vào bất kỳ trạng thái nào đều bằng không.

03:32.760 --> 03:37.230
Giống như những gì chúng ta đã thấy ở đây, phần thưởng sẽ là -0. 04.

03:37.320 --> 03:38.250
Những gì chúng tôi vừa giới thiệu.

03:38.250 --> 03:44.100
Bây giờ ở đây, phần thưởng sẽ là -0. 5 hoặc hình phạt sống sẽ là -0. 5.

03:44.100 --> 03:47.550
Cao hơn rất nhiều, bạn có thể thấy ở đây, lớn hơn gấp mười lần.

03:47.550 --> 03:50.070
Và ở đây hình phạt sống sẽ là trừ hai.

03:50.100 --> 03:58.980
Vì vậy, thậm chí nhiều hơn phần thưởng bạn nhận được khi nhảy, hoặc thậm chí ít hơn phần thưởng mà bạn hoặc người đại diện nhận được khi

03:58.980 --> 04:00.630
kết thúc trong ống lửa.

04:00.630 --> 04:07.050
Vì vậy, hãy cùng xem các hành động hoặc chính sách tối ưu để vượt qua môi trường này sẽ thay đổi như thế

04:07.050 --> 04:09.090
nào tùy thuộc vào phần thưởng này.

04:09.090 --> 04:11.160
Vì vậy, đây là chính sách ban đầu của chúng tôi.

04:11.790 --> 04:18.240
Và như bạn có thể nhớ, chúng tôi đã có hai quyết định rất thú vị và thậm chí hơi kỳ quặc này

04:18.240 --> 04:23.850
của người đại diện, nhưng hoàn toàn có ý nghĩa nếu anh ta có thể sống bao lâu tùy thích.

04:23.850 --> 04:29.460
Nếu bạn có thể đi du lịch khắp nơi bao lâu anh ta muốn mà không bị phạt vì

04:29.460 --> 04:32.040
sống rất lâu, anh ta tại sao không?

04:32.070 --> 04:38.400
Tại sao anh ta không đi vào góc ở đây, vào bức tường và tiếp tục làm điều đó cho đến khi nó xảy ra?

04:38.400 --> 04:41.220
Nó xảy ra như vậy là anh ta đi theo hướng này và sau đó anh ta sẽ đi vòng quanh.

04:41.220 --> 04:42.150
Và điều tương tự ở đây.

04:42.150 --> 04:47.220
Anh ta sẽ an toàn hơn nhiều khi nhảy vào tường với hy vọng cuối cùng một trong số này sẽ xuất hiện và

04:47.220 --> 04:52.410
dù sao anh ta cũng sẽ về đích, bởi vì bằng cách chọn hai hành động này, anh ta sẽ không có nguy cơ sa

04:52.410 --> 04:53.280
vào hố lửa.

04:53.370 --> 04:59.310
Bây giờ chúng ta hãy xem điều gì sẽ xảy ra nếu chúng ta thêm một phần thưởng, một phần thưởng tiêu cực cho việc chỉ còn sống, cho việc thực hiện

04:59.310 --> 04:59.750
một bước.

04:59.760 --> 04:59.900
Đúng.

05:00.070 --> 05:00.700
Bạn di chuyển.

05:00.970 --> 05:04.840
Vì vậy, ở đây bạn có thể thấy rằng ngay lập tức hai điều này đã thay đổi.

05:04.870 --> 05:07.660
Bây giờ, đặc vụ không muốn nhảy vào tường.

05:07.690 --> 05:10.450
Anh ta có nhiều khả năng sẽ mạo hiểm đến vòi rồng hơn.

05:10.480 --> 05:12.910
Có 10% cơ hội nhảy vào đây.

05:12.910 --> 05:18.850
Nhưng anh ấy sẽ tiến về phía trước bởi vì mỗi lần anh ấy nhảy tường ở đây, nếu anh ấy cũng sẽ làm điều đó

05:18.850 --> 05:19.510
ở đây.

05:19.540 --> 05:24.910
Mỗi khi anh ta nhảy vào tường, anh ta thực hiện một hành động mà anh ta kết thúc ở trạng thái này với 80% cơ hội.

05:24.910 --> 05:31.300
Và điều đó có nghĩa là nếu có 80% cơ hội, anh ta sẽ nhận được -0. 04 phần thưởng, có nghĩa là rất nhiều thời gian anh ta

05:31.300 --> 05:34.270
sẽ nhận được điều này tích lũy phần thưởng âm này.

05:34.810 --> 05:35.470
Điều tương tự ở đây.

05:35.470 --> 05:42.700
Nếu anh ta nhảy vào tường chờ đợi thời điểm đó khi anh ta thực sự sẽ được di chuyển ngẫu nhiên sang bên phải, nếu

05:42.700 --> 05:48.880
anh ta tiếp tục làm như vậy, anh ta sẽ tích lũy phần thưởng âm này và kết quả của

05:48.880 --> 05:55.090
điều đó, nếu bạn thực hiện các phép tính, bạn sẽ thấy rằng kết quả của việc đó, giá trị mong đợi

05:55.090 --> 06:02.640
của cách tiếp cận đó là nhảy vào tường còn tệ hơn việc chấp nhận rủi ro đi tiếp và thực sự kết thúc trong hố lửa.

06:02.650 --> 06:09.880
Vì vậy, anh ta thay đổi quyết định của mình ở hai khối này để thay vào đó là tiến về phía trước và ở đây là di chuyển sang bên

06:09.880 --> 06:14.710
trái, mặc dù có nguy cơ nhảy vào hố lửa, đơn giản bởi vì bây giờ anh ta càng sống lâu,

06:14.710 --> 06:18.730
anh ta sẽ tích lũy hình phạt sống này càng lâu. trong môi trường tiếp theo.

06:18.760 --> 06:23.980
Bây giờ chúng tôi đang tăng án phạt sống lên một con số lớn hơn, -0. 5, và hãy xem những gì thay đổi ở

06:23.980 --> 06:24.460
đây.

06:24.580 --> 06:29.500
Vì vậy, bây giờ bạn có thể thấy rằng so với môi trường này, điều duy nhất thay đổi ở đây là

06:29.500 --> 06:31.330
mũi tên này hướng sang bên phải.

06:31.900 --> 06:36.910
Và điều đó có nghĩa là bây giờ nó không còn là một lựa chọn tốt cho người đại diện nữa.

06:36.910 --> 06:41.470
Ồ, ngoài ra, mũi tên này đang hướng sang trái và bây giờ đang hướng

06:41.470 --> 06:42.100
lên trên.

06:42.100 --> 06:48.100
Vì vậy, bây giờ không còn là một ý kiến hay cho người đại diện từ đây, hãy đi vòng quanh tất cả các con đường.

06:48.100 --> 06:51.100
Bởi vì nếu anh ta đi khắp con đường, vâng, anh ta an toàn hơn.

06:51.100 --> 06:53.860
Có ít cơ hội hơn là không có cơ hội đến được vòi rồng.

06:54.100 --> 06:58.540
Nhưng đồng thời, nơi có ít cơ hội vào được ống lửa hơn, nhưng đồng thời,

06:58.540 --> 07:03.070
anh ta sẽ tích lũy được một phần thưởng âm đáng kể khi anh ta đi vòng quanh.

07:03.070 --> 07:05.290
Vì vậy, nó chỉ là con đường quá dài.

07:05.290 --> 07:11.560
Vì vậy, điều đó buộc anh ta, cho dù anh ta ở đây hay ở đây, phải đi con đường ngắn hơn để đến

07:11.560 --> 07:16.840
đây, mặc dù anh ta có nguy cơ chui vào hố lửa cao hơn nhiều, bởi vì ngay sau khi

07:16.840 --> 07:21.700
anh ta kết thúc ở quảng trường, có 10% cơ hội theo tính toán của anh ta.

07:21.700 --> 07:27.910
Nó chỉ là giá trị kỳ vọng của cách tiếp cận này tốt hơn giá trị kỳ vọng của việc đi vòng quanh đơn giản là

07:27.910 --> 07:30.280
vì chúng tôi đã tăng hình phạt sống này.

07:30.460 --> 07:36.820
Và cuối cùng, chúng ta đang lấy ví dụ với mức phạt sống là -2. 0.

07:36.820 --> 07:42.580
Vì vậy, ở đây tôi khuyến khích bạn tạm dừng video vì bạn đã thấy chính sách đã thay đổi như thế nào

07:42.580 --> 07:48.040
khi chúng tôi tăng hình phạt chung thân, tôi khuyến khích bạn tạm dừng video và tự suy nghĩ điều gì sẽ

07:48.040 --> 07:49.810
xảy ra trong tình huống này?

07:49.810 --> 07:55.720
Bạn nghĩ chính sách tối ưu sẽ được đưa ra là gì mà án phạt chung thân lại cao như vậy?

07:55.720 --> 08:02.320
Vì vậy, tôi sẽ cho phép bạn tạm dừng video nếu bạn muốn và bây giờ tôi sẽ bắt đầu chỉ cho bạn giải pháp.

08:02.320 --> 08:09.550
Vì vậy, trong trường hợp này, nếu bạn tăng mức phạt lên -2. 0, quá cao, hãy nhớ rằng hình phạt ở đây chỉ là

08:09.550 --> 08:10.810
-1. 0.

08:10.810 --> 08:16.750
Nó cao đến mức đặc vụ chỉ muốn thoát ra khỏi trò chơi bằng mọi cách có thể, ngay cả khi chỉ bằng

08:16.750 --> 08:18.310
cách nhảy lên vòi phun lửa.

08:18.340 --> 08:19.150
Anh ấy sẽ làm được.

08:19.150 --> 08:25.780
Anh ấy sẽ giống như, mỗi khi tôi thực hiện một bước, mỗi khi tôi kết thúc ở trạng thái mới hoặc mỗi khi

08:25.780 --> 08:29.950
tôi thực hiện một hành động, tôi sẽ nhận được phần thưởng trừ hai.

08:29.950 --> 08:36.160
Vì vậy, cố gắng về đích có ích gì nếu từ đây tôi sẽ phải mất thêm hai bước nữa, tôi sẽ

08:36.160 --> 08:41.020
đi đến đây và sau đó đi thẳng vào vòi rồng, bởi vì như vậy phần thưởng của

08:41.020 --> 08:42.370
tôi sẽ ít hơn.

08:42.580 --> 08:48.670
Phần thưởng tiêu cực sẽ không tệ như trong trường hợp chỉ thực hiện các bước bổ sung.

08:48.760 --> 08:56.740
Vì vậy, bạn có thể thấy rằng việc thêm phần thưởng sống này và tùy thuộc vào giá trị của phần thưởng sống mà chúng tôi

08:56.740 --> 09:02.410
đang thêm, kết quả sẽ khác nhau và đại lý sẽ chọn các chính sách khác nhau.

09:02.410 --> 09:09.880
Và về cơ bản đó là cách giá trị phần thưởng có thể được kết hợp bởi phương trình Bellman, ngay cả khi nó không chỉ ở

09:09.880 --> 09:13.720
vạch đích hoặc cuối trò chơi, mà thậm chí trong suốt trò chơi.

09:13.720 --> 09:18.610
Và một lần nữa, một lần nữa, nó không nhất thiết phải ở mọi trạng thái đơn lẻ, tùy thuộc

09:18.610 --> 09:19.870
vào chính môi trường.

09:19.870 --> 09:26.050
Nó có thể được trao cho đại lý ở một số trạng thái cụ thể, không phải ở mọi trạng thái, nhưng trong

09:26.050 --> 09:32.530
ví dụ đơn giản của chúng tôi, chúng tôi chỉ sử dụng phần thưởng ở mọi trạng thái nhất định để minh họa khái niệm này.

09:32.620 --> 09:34.360
Vì vậy, tôi hy vọng bạn thích hướng dẫn ngày hôm nay.

09:34.360 --> 09:40.150
Và như bạn có thể thấy, chúng tôi đã tạo ra phương trình bellman khá phức tạp và bây giờ nó có thể được

09:40.150 --> 09:42.100
áp dụng cho nhiều trường hợp khác nhau.

09:42.100 --> 09:44.260
Và tôi rất nóng lòng được gặp bạn trong bài hướng dẫn tiếp theo.

09:44.260 --> 09:45.670
Và cho đến khi đó, hãy tận hưởng.

09:45.670 --> 09:46.300
TÔI.