WEBVTT

00:00.480 --> 00:03.150
Xin chào và chào mừng bạn trở lại với khóa học về Học sâu ngày hôm nay.

00:03.150 --> 00:08.730
Chúng tôi đang nói về Max pooling và chúng tôi có một số trang trình bày rất thú vị sắp ra mắt và thậm chí là

00:08.730 --> 00:10.800
một bất ngờ đặc biệt ở cuối hướng dẫn.

00:10.800 --> 00:12.260
Vậy hãy bắt đầu.

00:12.270 --> 00:15.780
Câu hỏi đầu tiên là gộp là gì và tại sao chúng ta cần nó?

00:15.810 --> 00:18.540
Vâng, để trả lời câu hỏi đó, chúng ta hãy xem những hình ảnh này.

00:18.540 --> 00:20.640
Trên ba hình ảnh này, chúng ta có một con báo gêpa.

00:20.640 --> 00:23.580
Trên thực tế, nó giống hệt báo gêpa trên hình ảnh đầu tiên.

00:23.580 --> 00:26.130
Hình ảnh được đặt đúng vị trí.

00:26.220 --> 00:27.900
Con báo đang nhìn thẳng vào bạn.

00:27.900 --> 00:32.490
Trên hình ảnh thứ hai, nó bị xoay một chút và hình ảnh thứ ba bị bóp méo một chút.

00:32.490 --> 00:39.960
Và vấn đề ở đây là chúng tôi muốn mạng lưới thần kinh có thể nhận ra báo gêpa trong mọi

00:39.960 --> 00:41.190
hình ảnh này.

00:41.190 --> 00:43.170
Trên thực tế, đây chỉ là một con báo gêpa.

00:43.170 --> 00:45.030
Điều gì sẽ xảy ra nếu chúng ta có nhiều loài báo gêpa khác nhau?

00:45.030 --> 00:45.960
Đây là một con báo gêpa.

00:45.960 --> 00:47.160
Đây là một con báo.

00:47.160 --> 00:48.480
Đây là một con báo khác.

00:48.510 --> 00:51.420
Đây là một con báo gêpa, đây là một con báo gêpa và đây là một con báo gêpa.

00:51.420 --> 00:55.860
Và chúng tôi muốn mạng lưới thần kinh nhận ra tất cả những con báo đốm này là báo gêpa.

00:55.980 --> 01:01.710
Và làm thế nào nó có thể làm được điều đó nếu tất cả họ đều đang nhìn về các hướng khác nhau?

01:01.710 --> 01:04.050
Tất cả chúng đều nằm trong các phần khác nhau của hình ảnh.

01:04.050 --> 01:06.990
Họ giống như khuôn mặt của họ được định vị ở các phần khác nhau của hình ảnh.

01:06.990 --> 01:10.560
Ai đó ở bên tay phải, ai đó ở góc trái, ai đó ở giữa.

01:10.860 --> 01:12.390
Tất cả chúng đều khác nhau một chút.

01:12.480 --> 01:16.110
Kết cấu là một chút khác nhau, ánh sáng là một chút khác nhau.

01:16.110 --> 01:17.340
Có rất nhiều khác biệt nhỏ.

01:17.340 --> 01:23.130
Và vì vậy, nếu mạng lưới thần kinh tìm kiếm chính xác một đặc điểm nào đó, chẳng hạn,

01:23.130 --> 01:31.740
một đặc điểm nổi bật của loài báo gêpa là những giọt nước mắt trên mặt nó chảy ra từ mắt hoặc những bóng tối trông giống như nước

01:31.740 --> 01:36.090
mắt, kết cấu, mô hình đó là đi từ mắt của nó xuống.

01:36.090 --> 01:37.740
Nó có kích thước bằng cái mũi của nó.

01:37.740 --> 01:38.430
Nó trông giống như những giọt nước mắt.

01:38.430 --> 01:40.680
Đó là một đặc điểm khác biệt của báo gêpa.

01:40.680 --> 01:48.600
Nhưng nếu nó đang tìm kiếm đặc điểm mà nó đã học được từ một số loài báo ở một vị trí chính xác hoặc ở hình dạng hoặc hình thức

01:48.600 --> 01:53.190
hoặc kết cấu chính xác, nó sẽ không bao giờ tìm thấy những con báo gêpa khác.

01:53.190 --> 02:01.380
Vì vậy, chúng ta phải đảm bảo rằng mạng nơ-ron của chúng ta có một thuộc tính gọi là Spatial Invariance, nghĩa là nó không quan

02:01.380 --> 02:10.320
tâm đến vị trí của các đối tượng địa lý, không quan tâm đến phần nào của hình ảnh, bởi vì chúng ta đã chụp điều đó được xem

02:10.320 --> 02:16.560
xét với bản đồ của chúng tôi, với po của chúng tôi, với lớp phức hợp của chúng tôi.

02:16.560 --> 02:23.340
Nhưng không cần quan tâm nếu các đối tượng địa lý có hơi nghiêng một chút, nếu các đối tượng địa lý có kết cấu hơi khác một

02:23.340 --> 02:29.790
chút, nếu các đối tượng địa lý gần hơn một chút hoặc nếu các đối tượng địa lý xa hơn một chút so với tương đối với

02:29.790 --> 02:30.150
nhau.

02:30.150 --> 02:37.200
Vì vậy, nếu bản thân đối tượng có một chút méo mó, mạng nơ-ron của chúng ta phải có một số mức độ linh hoạt để

02:37.200 --> 02:42.120
có thể vẫn tìm thấy đối tượng đó và đó là tất cả những gì về tổng thể.

02:42.510 --> 02:44.880
Vì vậy, chúng ta hãy xem xét cách hoạt động của gộp.

02:44.880 --> 02:46.080
Đây là bản đồ tính năng của chúng tôi.

02:46.080 --> 02:52.110
Vì vậy, chúng tôi đã thực hiện tích chập của mình và chúng tôi đã hoàn thành phần đó và bây giờ chúng tôi đang làm việc với lớp tích

02:52.110 --> 02:52.470
chập.

02:52.500 --> 02:53.820
Bây giờ chúng ta sẽ áp dụng gộp.

02:53.820 --> 02:54.600
Vì vậy, làm thế nào nó hoạt động?

02:54.600 --> 02:56.280
Chúng tôi sẽ áp dụng tổng hợp tối đa.

02:56.550 --> 03:01.140
Có một số kiểu gộp khác nhau có thể áp dụng là gộp chung, gộp tối đa, một số gộp và chúng tôi sẽ

03:01.140 --> 03:03.360
bình luận về những kiểu đó ở cuối hướng dẫn này.

03:03.360 --> 03:05.010
Nhưng hiện tại chúng tôi chỉ đang áp dụng tổng hợp tối đa.

03:05.010 --> 03:12.240
Vì vậy, chúng tôi lấy một hộp có hai x hai pixel như vậy và lặp lại, nó không nhất thiết phải là hai x hai.

03:12.270 --> 03:13.470
Bạn có thể chọn bất kỳ kích thước của hộp.

03:13.470 --> 03:18.360
Và một lần nữa, chúng tôi sẽ nhận xét về điều đó vào cuối thời gian dùng thử và bạn đặt nó ở

03:18.360 --> 03:21.840
góc trên cùng bên trái và bạn tìm thấy giá trị lớn nhất trong ô đó.

03:21.840 --> 03:26.100
Và sau đó bạn chỉ ghi lại giá trị đó và bạn bỏ qua ba giá trị còn lại.

03:26.100 --> 03:30.420
Vì vậy, trong hộp của bạn, bạn có bốn giá trị, bạn chỉ bỏ qua ba giá trị, bạn chỉ giữ một giá trị tối đa, trong trường

03:30.420 --> 03:31.530
hợp này là một giá trị.

03:31.530 --> 03:36.000
Sau đó, bạn di chuyển ô của mình sang bên phải một bước, bạn chọn lại bước một lần nữa.

03:36.000 --> 03:41.010
Vì vậy, ở đây chúng tôi chọn một trong hai bước và đó là những gì bạn thường chọn.

03:41.010 --> 03:42.780
Bạn có thể chọn một sải chân, bạn có thể chọn.

03:42.780 --> 03:44.310
Vì vậy, có các hộp chồng lên nhau.

03:44.310 --> 03:48.090
Bạn có thể chọn bất kỳ kiểu sải chân nào mà bạn thích, thậm chí là ba sải chân nếu bạn muốn.

03:48.600 --> 03:52.290
Nhưng chúng tôi đang chọn một trong hai bước ở đây, và đó là những gì thường được sử dụng.

03:52.290 --> 03:53.850
Và sau đó bạn lặp lại, lặp lại quá trình.

03:53.850 --> 03:55.770
Bạn ghi mức tối đa ở đây.

03:55.770 --> 03:59.880
Nếu bạn vượt qua và không thành vấn đề, bạn cứ tiếp tục làm những gì bạn đang làm.

03:59.880 --> 04:07.230
Vì vậy, bạn vẫn ghi giá trị lớn nhất ở đây, không ở đây, tối đa là bốn ở đây tối đa là hai

04:07.230 --> 04:10.740
ở đây tối đa là 10102 và sau đó là một.

04:11.190 --> 04:13.920
Vì vậy, như bạn có thể thấy, một vài điều đã xảy ra.

04:13.920 --> 04:18.360
Trước hết, chúng ta vẫn có thể bảo toàn các tính năng, phải không?

04:18.930 --> 04:23.670
Các số tối đa mà chúng đại diện bởi vì chúng ta biết cách hoạt động của lớp tích chập.

04:23.670 --> 04:28.590
Chúng tôi biết rằng các số lớn nhất hoặc bit lớn trong bản đồ đối tượng địa lý của bạn mà chúng đại diện cho nơi bạn

04:28.590 --> 04:31.410
thực sự tìm thấy điểm tương đồng gần nhất với đối tượng địa lý.

04:31.410 --> 04:38.190
Nhưng bằng cách gộp các tính năng này lại, trước hết, chúng tôi loại bỏ 75% thông tin.

04:38.190 --> 04:46.170
Đó không phải là tính năng cũng không phải là những thứ quan trọng mà chúng tôi đang tìm kiếm vì chúng tôi đang bỏ

04:46.170 --> 04:51.240
qua ba pixel trong số bốn pixel, vì vậy chúng tôi chỉ giữ lại 25%.

04:51.240 --> 04:59.880
Và sau đó cũng bởi vì chúng tôi đang sử dụng tối đa các pixel hoặc các giá trị mà chúng tôi.

05:00.480 --> 05:04.080
Do đó, chúng tôi sẽ tính đến bất kỳ sự biến dạng nào.

05:04.080 --> 05:11.880
Vì vậy, ví dụ, hai hình ảnh, ví dụ, những giọt nước mắt của con báo gêpa.

05:12.060 --> 05:15.480
Trong một hình ảnh có một chút ở bên trái hoặc một chút được xoay sang bên trái.

05:15.480 --> 05:16.080
Và một cái khác.

05:16.080 --> 05:21.330
Có một chút và có cách chúng được cho là như thế nào hoặc chúng ta thích như thế nào nếu chúng ta

05:21.330 --> 05:26.130
lấy một cái làm cơ sở và sau đó cái kia xoay sang trái, tính năng gộp chung sẽ giống hệt

05:26.130 --> 05:26.490
nhau.

05:26.490 --> 05:30.360
Vì vậy, bạn có thể thấy ở đây nếu chúng ta đang nói về những kẻ gian lận, cổ vũ.

05:30.360 --> 05:34.110
Sau đó, hãy nói rằng đây là bốn và đây là nơi nó đã ở đây.

05:34.110 --> 05:35.970
Sau đó, nếu nó được xoay một chút.

05:35.970 --> 05:41.010
Vì vậy, ví dụ, bốn kết thúc ở đây, sau đó khi chúng tôi thực hiện gộp chúng tôi vẫn sẽ nhận được cùng một bản

05:41.010 --> 05:42.690
đồ đối tượng địa lý được gộp chung.

05:42.960 --> 05:46.140
Và đó là nguyên tắc đằng sau nó.

05:46.410 --> 05:51.930
Đó là một lời giải thích rất thô, một lần nữa, giải thích trực quan, nhưng đó là điểm chung của

05:51.930 --> 06:00.210
việc chúng tôi vẫn có thể bảo toàn các tính năng và hơn thế nữa là giải thích cho các biến dạng có thể có của chúng về không gian hoặc kết

06:00.210 --> 06:02.130
cấu hoặc các loại biến dạng khác.

06:02.130 --> 06:05.730
Và ngoài tất cả những điều đó, chúng tôi đang giảm kích thước.

06:05.730 --> 06:07.290
Vì vậy, có một lợi ích khác.

06:07.290 --> 06:12.900
Vì vậy, chúng tôi đã bảo tồn các tính năng, chúng tôi đang giới thiệu các tính năng bất biến

06:12.900 --> 06:19.470
trong không gian, chúng tôi đang giảm kích thước xuống 75%, rất lớn, điều này thực sự sẽ giúp chúng tôi về mặt xử lý.

06:19.470 --> 06:25.050
Và hơn nữa, một lợi ích khác của việc gộp chung là chúng ta đang giảm số lượng tham số.

06:25.050 --> 06:27.750
Vì vậy, chúng tôi giảm 75% một lần nữa.

06:27.750 --> 06:32.370
Chúng tôi đang giảm số lượng các tham số sẽ đi vào các lớp cuối cùng của mạng nơ-ron và

06:32.370 --> 06:35.160
do đó chúng tôi đang ngăn chặn việc trang bị quá mức.

06:35.160 --> 06:41.100
Đó là một lợi ích rất quan trọng của việc tổng hợp mà chúng tôi đang xóa thông tin.

06:41.100 --> 06:42.510
Và đó là một điều tốt.

06:42.510 --> 06:50.610
Đó là một điều tốt vì theo cách đó, mô hình của chúng tôi sẽ không thể phù hợp với thông tin đó bởi vì đặc biệt là vì

06:50.610 --> 06:52.620
thông tin đó không liên quan.

06:52.620 --> 06:57.060
Hãy nhớ rằng, giống như ngay từ đầu chúng ta đã nói đến ngay cả đối với con người chúng ta là con

06:57.060 --> 07:02.370
người, điều quan trọng là phải nhìn thấy chính xác các tính năng hơn là tất cả những tiếng ồn khác đang phát ra trong mắt chúng ta.

07:02.550 --> 07:04.440
Điều tương tự đối với mạng nơ-ron.

07:04.440 --> 07:12.090
Họ bỏ qua thông tin không quan trọng không cần thiết, chúng tôi đang giúp ngăn chặn việc trang bị quá mức.

07:12.240 --> 07:12.990
Vì vậy, họ sẽ đi.

07:12.990 --> 07:14.520
Đó là những gì tổng hợp là về.

07:14.520 --> 07:18.720
Và câu hỏi ở đây là tất nhiên, tại sao?

07:18.720 --> 07:19.800
Tại sao Max Pooling, đúng.

07:19.800 --> 07:25.020
Có rất nhiều kiểu gộp khác nhau và tại sao astride lại cố gắng giải thích tại sao kích thước 2 x 2 pixel

07:25.020 --> 07:26.520
lại có nhiều thứ như vậy.

07:26.520 --> 07:33.900
Và trên lưu ý đó, tôi muốn giới thiệu với bạn bài báo nghiên cứu đáng yêu này có tên Đánh giá

07:33.900 --> 07:40.170
hoạt động gộp trong kiến trúc hợp hiến để nhận dạng đối tượng của Dominic Scherrer từ Đại

07:40.170 --> 07:40.890
học Bonn.

07:40.890 --> 07:47.460
Có một liên kết, và cái hay của bài báo này là nó rất, rất đơn giản, rất dễ hiểu.

07:47.460 --> 07:51.480
Vì vậy, nếu bạn chưa bao giờ đọc một bài báo nghiên cứu trước đây, bạn muốn thử xem nó như thế nào?

07:51.480 --> 07:53.760
Đây là một nơi tuyệt vời để bắt đầu.

07:53.760 --> 07:56.790
Nó rất ngắn, chỉ mười trang, rất dễ đọc.

07:56.790 --> 08:02.610
Và thêm vào đó, lợi ích bổ sung là bây giờ chúng ta đã thảo luận về tích chập và tổng hợp, bạn sẽ hoàn toàn

08:02.610 --> 08:05.880
thoải mái với mọi thứ mà họ đang nói đến trong bài báo này.

08:05.880 --> 08:09.360
Và bạn đây là một cách tuyệt vời để thực sự củng cố kiến thức của bạn.

08:09.360 --> 08:11.550
Vì vậy, tôi thực sự khuyên bạn nên kiểm tra tờ giấy này.

08:11.700 --> 08:17.520
Tôi sẽ dành 20 phút để đọc nó và bạn thậm chí có thể bỏ qua phần hai, được gọi là công việc liên quan.

08:17.520 --> 08:19.800
Nếu nó cảm thấy hơi xa vời hoặc xa lạ.

08:19.800 --> 08:20.970
Chỉ cần không đọc phần đó.

08:20.970 --> 08:23.610
Chỉ cần đi thẳng đến từ phần một đến phần ba.

08:23.610 --> 08:29.670
Và một điều mà bạn cần biết về bài báo này, họ nói về một khái niệm được gọi là lấy mẫu phụ trong đó

08:30.300 --> 08:33.150
lấy mẫu phụ về cơ bản là tổng hợp trung bình.

08:33.150 --> 08:37.320
Vì vậy, hãy nhớ cách chúng tôi đã ở đây, chúng tôi đã tận dụng tối đa.

08:37.320 --> 08:39.870
Vì vậy, trong ô vuông của chúng tôi, chúng tôi đã lấy giá trị lớn nhất.

08:39.870 --> 08:42.990
Có một khái niệm được gọi là gộp chung hoặc một số gộp.

08:42.990 --> 08:46.740
Một số tổng hợp bạn chỉ là một số trong những giá trị này lên tổng hợp trung bình hoặc tổng hợp có nghĩa là?

08:46.740 --> 08:53.070
Bạn lấy giá trị trung bình của tất cả những thứ này và lấy mẫu phụ giống như một cách tổng quát của tổng hợp

08:53.070 --> 08:53.850
trung bình.

08:53.850 --> 09:00.780
Đó là một kiểu tiếp cận tổng quát hơn để lấy giá trị trung bình của các giá trị này.

09:00.780 --> 09:05.250
Và bạn có thể đọc thêm một chút về nó trong bài báo, nhưng nếu không, hãy nghĩ nó là tổng số trung bình khi

09:05.250 --> 09:06.390
bạn đang đọc bài báo đó.

09:06.720 --> 09:09.690
Và đó là nơi bạn có thể nhận được một số thông tin bổ sung về chủ đề này.

09:09.690 --> 09:12.270
Và bây giờ chúng ta hãy tóm tắt lại chúng ta đã đi đến đâu?

09:12.270 --> 09:14.070
Vì vậy, có hình ảnh đầu vào của chúng tôi.

09:14.610 --> 09:18.870
Sau đó, chúng tôi áp dụng phép toán tích chập và chúng tôi nhận được lớp tích chập.

09:18.870 --> 09:24.090
Và bây giờ đối với mỗi bản đồ đối tượng mà chúng tôi nhận được, chúng tôi đã áp dụng lớp gộp.

09:24.090 --> 09:30.330
Vì vậy, chúng tôi đã có, chúng tôi đã thực hiện hai bước tích hợp và gộp lại, và bây giờ chúng tôi sẽ làm một điều gì đó rất thú

09:30.330 --> 09:31.920
vị, một điều gì đó thú vị.

09:31.920 --> 09:34.380
Chúng tôi sẽ thử nghiệm điều này.

09:34.380 --> 09:44.550
Vì vậy, đây là ảnh chụp màn hình tôi chụp từ một công cụ do Adam Harley tạo ra từ khi anh ấy còn học tại Đại học Khoa học Máy tính Ryerson và

09:44.550 --> 09:50.580
bây giờ anh ấy đang ở Carnegie Mellon, tôi nghĩ, đang làm tiến sĩ và một công cụ tuyệt

09:50.580 --> 09:50.910
vời.

09:50.910 --> 09:52.410
Vì vậy, chúng ta hãy mở ra.

09:52.410 --> 09:54.090
Hãy xem để bạn có thể tìm thấy nó.

09:54.090 --> 09:55.680
Bạn thực sự không thể tìm thấy nó thông qua Google.

09:55.680 --> 09:57.450
Bạn phải biết URL.

09:57.450 --> 09:59.370
Nó chỉ là khó tìm.

09:59.480 --> 10:01.010
Thông qua Google vì không có văn bản nào ở đây.

10:01.160 --> 10:03.950
SC Chà, chỉ URL này.

10:04.130 --> 10:08.270
CS Dot Ryerson Dossier và cuối cùng là nội dung này.

10:08.270 --> 10:11.930
Và về cơ bản đây chính xác là những gì chúng tôi đang làm.

10:11.930 --> 10:12.620
Nhưng hãy hình dung.

10:12.620 --> 10:14.330
Vì vậy, ở đây bạn cần phải vẽ một số.

10:14.330 --> 10:21.290
Vì vậy, giả sử tôi vẽ số bốn và công cụ này sẽ đặt số bốn ở đây.

10:21.290 --> 10:24.080
Đó là hình ảnh của bạn trong bước đầu tiên của chúng tôi.

10:24.080 --> 10:26.990
Sau đó, đây là bước tích chập, phải không?

10:26.990 --> 10:28.130
Và đây là bước gộp.

10:28.130 --> 10:30.320
Và nhân tiện, gộp chung còn được gọi là downampling.

10:30.320 --> 10:33.350
Vì vậy, gộp và lấy mẫu xuống là những thứ giống nhau.

10:33.860 --> 10:39.050
Vì vậy, bạn có thể thấy nó được áp dụng tích chập, sau đó nó được áp dụng gộp và bạn có thể thấy nó hoạt động chính xác như thế nào.

10:39.050 --> 10:44.330
Vì vậy, bạn có thể xem nó đã áp dụng loại chập nào hoặc loại bộ lọc nào nó áp dụng, chúng trông như

10:44.330 --> 10:44.780
thế nào.

10:44.780 --> 10:50.360
Bạn có thể thấy những tính năng mà nó đang tìm kiếm và sau đó nó được áp dụng, gộp lại, vì vậy nó sẽ giảm kích

10:50.360 --> 10:50.570
thước.

10:50.570 --> 10:53.300
Và bạn có thể thấy ở đây rằng điều này là quan trọng, phải không?

10:53.300 --> 11:01.010
Vì vậy, bạn có thể thấy rằng đây là hình ảnh liên quan và đây là hình ảnh gộp lại và bạn vẫn có thể thấy các tính năng

11:01.010 --> 11:01.700
tương tự.

11:01.700 --> 11:04.210
Nó chỉ là ít thông tin hơn, nhưng tính năng tương tự, phải không?

11:04.220 --> 11:05.750
Các tính năng được giữ nguyên.

11:05.750 --> 11:07.160
Đó là phần quan trọng.

11:08.150 --> 11:13.370
Và hơn nữa, nếu bạn biết, nếu bốn cái của chúng ta giống như xoay một chút sang một bên,

11:13.370 --> 11:16.790
nó vẫn có thể chọn các lớp gộp lại rất giống nhau.

11:16.790 --> 11:18.500
Và sau đó nó có nhiều lớp hơn.

11:18.500 --> 11:19.730
Chúng tôi vẫn chưa nói về điều đó.

11:19.730 --> 11:27.380
Vì vậy, sau đó nó có một lớp tích tụ phức tạp khác ở đây mà chúng ta thực sự sẽ không có, và sau đó nó có một lớp tổng hợp

11:27.380 --> 11:30.700
khác, nhưng về cơ bản nó chỉ lặp lại quá trình tương tự.

11:30.710 --> 11:36.110
Và sau đó, đây là những gì chúng ta sẽ nói sâu hơn trong khóa học là có các lớp được kết

11:36.110 --> 11:39.800
nối đầy đủ, v.v., nhưng bạn chắc chắn có thể chơi với điều đó.

11:39.800 --> 11:47.720
Vì vậy, nếu tôi xóa mà bạn thích, nếu tôi rút ra số bảy, bạn sẽ thấy rằng nó thực sự cho bạn biết dự đoán

11:47.720 --> 11:52.730
có phải đây là số bảy và đoán thứ hai, khả năng thứ hai là ba.

11:52.730 --> 11:56.360
Vì vậy, bạn có thể vẽ cho nó một số điều khó khăn và xem liệu nó có thể chọn được chúng hay không.

11:56.360 --> 12:01.100
Vì vậy, giả sử nếu tôi vẽ một cái gì đó trông giống như một số 0, nhưng nó không phải là một số 0

12:01.100 --> 12:03.620
hoàn thành, nó có nhặt nó lên bây giờ lần này không.

12:03.620 --> 12:06.080
Nó trông giống như một số chín đối với hình ảnh.

12:06.080 --> 12:08.270
Nếu tôi thích kết thúc như vậy thì sao?

12:08.270 --> 12:14.390
Vì vậy, bây giờ nó cho rằng đó là số 0 hoặc số chín và bạn có thể thấy ở đó điều gì đang thắp sáng số 0 hoặc số chín.

12:14.390 --> 12:16.220
Nhưng chúng ta sẽ nói về phần đó sâu hơn.

12:16.460 --> 12:17.270
Hãy làm một cái nữa.

12:17.300 --> 12:19.760
Hãy nói like like tám.

12:19.760 --> 12:25.820
Tôi nghĩ rằng số tám là khá khó khăn cho điều này bây giờ chọn một tám, vì vậy bạn có thể thấy rằng đó là tám.

12:25.820 --> 12:28.850
Và sau đó, nó không còn được nhận ra nữa.

12:28.850 --> 12:31.970
Các điểm dừng có ý nghĩa đối với con người chúng ta, phải không?

12:31.970 --> 12:38.000
Những tính năng này mà nó đang hoạt động, nhưng đồng thời nó cũng nhận ra một cách chính xác rằng đó là một

12:38.000 --> 12:38.540
số tám.

12:38.750 --> 12:40.460
Vâng, vì vậy chắc chắn chơi xung quanh đó.

12:40.460 --> 12:43.430
Bạn có thể vẽ một khuôn mặt cười, xem điều gì sẽ xảy ra sau đó.

12:43.940 --> 12:49.810
Nó trông giống như một số ba đối với công cụ này, bởi vì công cụ này rõ ràng chỉ được đào tạo trên các chữ số

12:49.810 --> 12:50.860
từ 0 đến 9.

12:50.860 --> 12:55.870
Vì vậy, nó phải nhận ra một cái gì đó trong số những cái đó và nó nhận ra ba.

12:56.830 --> 13:02.110
Nó giống như trong cuộc sống khi bạn nhìn thấy một thứ gì đó giống như một loại trái cây mà

13:02.140 --> 13:05.830
bạn chưa từng thấy trước đây, như mãng cầu hay một thứ gì đó.

13:05.830 --> 13:12.250
Và bạn nghĩ rằng nó giống như một quả lê bởi vì bạn chưa bao giờ thực sự nhìn thấy nó trước đây.

13:12.250 --> 13:13.930
Bạn không biết phải phân loại nó như thế nào.

13:13.930 --> 13:14.590
Điều tương tự ở đây.

13:14.590 --> 13:17.590
Vì vậy, nó không thực sự được đào tạo trên khuôn mặt cười.

13:17.590 --> 13:19.270
Và đó là lý do tại sao nó nghĩ đó là một cái cây.

13:19.450 --> 13:20.200
Đó là một ba.

13:20.200 --> 13:20.860
Vậy là xong.

13:20.860 --> 13:22.600
Đó là một công cụ rất mạnh mẽ, mạnh mẽ.

13:22.600 --> 13:25.190
Nó sẽ hữu ích cho bạn để chơi xung quanh nó.

13:25.190 --> 13:32.950
Và trên thực tế, khi bạn đưa chuột lên một pixel pixel, nó sẽ hiển thị cho bạn nơi phát hiện tính năng đã

13:32.950 --> 13:37.390
lấy pixel đó để bạn có thể biết pixel này đến từ đâu.

13:37.390 --> 13:43.810
Và cũng để bạn có thể thấy bộ lọc giống như đi qua hình ảnh như thế nào, chính xác là cách chúng ta đã nói trong

13:43.810 --> 13:44.410
khóa học.

13:44.410 --> 13:51.430
Và ở đây bạn có thể thấy bạn có thể thấy gộp, bạn có thể thấy rằng việc gộp được thực hiện

13:51.430 --> 13:56.950
với việc gộp được thực hiện với một kích thước hình vuông nhỏ là hai x hai.

13:56.950 --> 14:03.670
Và bạn có thể thấy rằng đó là một bước tiến của hai, giống như chúng ta đã thảo luận trong hướng dẫn ngày hôm nay.

14:03.670 --> 14:09.130
Vì vậy, chúng ta bắt đầu, chơi một vòng với điều đó và tôi hy vọng bạn thích phiên hôm nay.

14:09.130 --> 14:10.450
Tôi mong được gặp bạn lần sau.

14:10.450 --> 14:12.580
Và cho đến lúc đó, hãy tận hưởng việc học sâu.
