WEBVTT

00:00.510 --> 00:02.850
Xin chào và chào mừng bạn trở lại khóa học về Học sâu.

00:02.850 --> 00:08.760
Hôm nay chúng ta đang nói về Revolut, là một đơn vị tuyến tính được chỉnh lưu và đây là một bước

00:08.760 --> 00:12.090
bổ sung ở trên cùng của bước tích chập của chúng ta.

00:12.090 --> 00:13.620
Vì vậy, nó không phải là một bước tiến lớn riêng biệt.

00:13.620 --> 00:14.490
Đó là một bước nhỏ.

00:14.490 --> 00:15.990
Về cơ bản đó là bước B.

00:15.990 --> 00:18.150
Và điều gì đang xảy ra ở đây?

00:18.150 --> 00:20.310
Chà, chúng tôi có hình ảnh đầu vào của chúng tôi.

00:20.310 --> 00:22.800
Chúng tôi có lớp tích chập của chúng tôi, mà chúng tôi đã thảo luận.

00:22.800 --> 00:30.930
Và trên hết, chúng tôi sẽ áp dụng chờ nó, chức năng Chỉnh lưu yêu thích của chúng tôi.

00:30.930 --> 00:37.680
Và bạn đã quen thuộc với chức năng Rectifier từ phần trước về mạng nơ-ron nhân

00:37.680 --> 00:38.490
tạo.

00:38.490 --> 00:48.690
Và trong SO của chúng tôi, đôi khi các tác giả hoặc người hướng dẫn tách tích chập và chỉnh lưu thành hai bước riêng biệt trong các ví dụ của

00:48.690 --> 00:55.950
chúng tôi, chúng tôi chỉ coi chúng là một bước tiến lớn duy nhất cho sự tiến hóa thứ hai so với

00:55.950 --> 00:56.970
Chỉnh lưu.

00:56.970 --> 01:03.720
Và lý do tại sao chúng tôi áp dụng Bộ chỉnh lưu là vì chúng tôi muốn tăng tính không tuyến tính trong hình ảnh của

01:03.720 --> 01:08.010
chúng tôi hoặc trong mạng của chúng tôi, trong mạng nơ-ron phức hợp của chúng tôi.

01:08.010 --> 01:15.660
Và Rectifier hoạt động như bộ lọc hoặc truy cập, chức năng đó phá vỡ tuyến tính.

01:15.660 --> 01:23.610
Và lý do tại sao chúng tôi muốn tăng tính phi tuyến tính trong mạng của mình là vì bản thân hình ảnh có tính phi tuyến tính

01:23.610 --> 01:29.970
cao, đặc biệt nếu bạn đang nhận ra các đối tượng khác nhau bên cạnh nhau hoặc chỉ trên nền và những

01:30.060 --> 01:31.230
thứ tương tự.

01:31.230 --> 01:36.300
Giống như hình ảnh sẽ có rất nhiều phần tử phi tuyến và sự chuyển đổi giữa các pixel, các pixel liền

01:36.300 --> 01:37.950
kề thường sẽ là phi tuyến.

01:37.950 --> 01:42.660
Đó là bởi vì có đường viền, có màu sắc khác nhau, nó khác nhau, có các yếu tố khác nhau trong hình

01:42.660 --> 01:43.500
ảnh của bạn.

01:43.500 --> 01:50.040
Và đồng thời, khi chúng tôi áp dụng một phép toán học như tích chập và chạy phát hiện đối tượng địa lý này

01:50.040 --> 01:57.360
để tạo bản đồ đối tượng địa lý của mình, chúng tôi có nguy cơ tạo ra một thứ gì đó tuyến tính và do đó chúng

01:57.360 --> 01:59.460
tôi cần phải chia nhỏ tuyến tính.

01:59.730 --> 02:01.710
Vì vậy, chúng ta hãy xem một ví dụ.

02:02.400 --> 02:05.700
Đây là một hình ảnh, một hình ảnh gốc.

02:05.730 --> 02:13.080
Bây giờ, khi chúng tôi áp dụng bộ phát hiện tính năng cho hình ảnh này, chúng tôi nhận được một cái gì đó như thế này.

02:13.080 --> 02:15.000
Vì vậy, bạn có thể thấy ở đây rằng màu đen là tiêu cực.

02:15.000 --> 02:15.930
Màu trắng là các giá trị tích cực.

02:15.930 --> 02:22.620
Chà, khi bạn áp dụng bộ phát hiện tính năng cho một hình ảnh giống như một hình ảnh thích hợp, không chỉ có số không và số một, mà có rất nhiều giá

02:22.620 --> 02:27.420
trị khác nhau và bạn áp dụng, như chúng ta đã thấy trước đây, nếu các bộ phát hiện trong tương lai có thể có

02:27.420 --> 02:33.180
các giá trị âm trong chính chúng, đôi khi bạn sẽ nhận được các giá trị âm và đây là các giá trị màu đen của chúng là âm,

02:33.180 --> 02:34.560
các giá trị trắng là dương.

02:34.560 --> 02:45.450
Và những gì một hàm đơn vị tuyến tính được điều chỉnh làm là nó loại bỏ tất cả những gì bên phải màu đen dưới 0, nó biến

02:45.450 --> 02:46.320
thành không.

02:46.320 --> 02:48.540
Và do đó, nó biến thành thế này.

02:48.540 --> 02:49.050
Đúng.

02:49.050 --> 02:57.810
Và vì vậy, thật khó để biết chính xác lợi ích là gì nếu xét về bốn lợi ích trong việc chia nhỏ

02:57.810 --> 02:58.590
tuyến tính.

02:59.250 --> 03:00.960
Tôi sẽ cố gắng giải thích.

03:00.990 --> 03:03.900
Tôi sẽ cố gắng đưa ra một ví dụ trên hình ảnh này.

03:04.560 --> 03:08.160
Nhưng vào cuối ngày, đây là một khái niệm rất toán học.

03:08.160 --> 03:12.390
Và chúng tôi sẽ phải đi vào rất nhiều phép toán để thực sự giải thích những gì đang xảy ra.

03:12.390 --> 03:13.740
Nhưng chúng ta hãy thử chúng ta hãy xem xét.

03:13.740 --> 03:17.850
Vì vậy, ví dụ, chúng ta hãy nhìn vào tòa nhà này ở đây, phải không?

03:17.850 --> 03:19.740
Vì vậy, đây là một tòa nhà của riêng mình.

03:20.590 --> 03:24.390
Sau đó, bạn có thể thấy cái bóng này, phần đen này, cái bóng này ở đây.

03:24.390 --> 03:30.390
Chà, bạn có thể thấy rằng nó có màu trắng, sự phản chiếu của ánh sáng, sau đó là màu

03:30.390 --> 03:32.850
xám, rồi tối dần rồi lại tối hơn.

03:32.850 --> 03:33.180
Đúng?

03:33.180 --> 03:35.790
Vì vậy, và khi chúng tôi lấy nó ra, chúng tôi sẽ loại bỏ phần màu đen đó.

03:35.790 --> 03:38.130
Vì vậy, hãy nghĩ về nó về độ tuyến tính, phải không?

03:38.130 --> 03:43.890
Vì vậy, có vẻ như khi bạn chuyển từ màu trắng sang màu xám, bước tiếp theo sẽ là màu đen, phải không?

03:43.890 --> 03:44.910
Bước tiếp theo sẽ là màu đen.

03:44.910 --> 03:49.410
Đó là một sự phát triển tuyến tính từ sáng đến tối.

03:49.410 --> 03:53.400
Và do đó, đây giống như một tình huống tuyến tính.

03:53.400 --> 03:55.710
Khi bạn lấy ra màu đen, bạn phá vỡ tuyến tính.

03:56.550 --> 03:57.630
Hãy thử một cái khác.

03:57.870 --> 03:59.010
Hãy xem ở đây.

03:59.010 --> 04:01.890
Và đồng thời, nó vẫn là tòa nhà đó, phải không?

04:01.890 --> 04:08.340
Nó không giống như bạn là bạn không giống như bạn đang trộn hai tòa nhà vào nhau.

04:08.340 --> 04:09.750
Nhưng đó là thứ yếu.

04:09.750 --> 04:11.580
Điểm chính là phá vỡ tuyến tính.

04:11.970 --> 04:13.050
Vì vậy, chúng ta hãy xem ở đây.

04:13.050 --> 04:13.500
Điều tương tự.

04:13.500 --> 04:19.350
Vì vậy, bạn thấy trắng, xám, đen, xám, trắng.

04:19.350 --> 04:22.430
Và khi bạn chia tay nó, bạn không còn như vậy nữa, phải không?

04:22.440 --> 04:30.300
Bạn không có sự tiến triển đó, sự tiến triển dần dần mà bạn có giống như một sự thay đổi đột ngột và điều đó giúp

04:30.300 --> 04:33.390
đưa sự không tuyến tính vào hình ảnh của bạn.

04:33.390 --> 04:41.490
Vì vậy, đó là một lời giải thích rất thô thiển, giống như cách giải thích trên ngón tay hơn là kỹ

04:41.850 --> 04:42.510
thuật.

04:42.510 --> 04:47.280
Nhưng hy vọng nó sẽ giúp bạn hiểu rõ hơn một chút về những gì chúng ta đang nói ở đây.

04:47.280 --> 04:50.430
Vì vậy, ở đây một lần nữa, bạn có thể thấy Xám trắng là một ví dụ tốt hơn.

04:50.430 --> 04:55.440
Ngay cả khi bạn nhìn thấy sáng, tối hơn, tối hơn, tối hơn, tối hơn, tối hơn, tối hơn.

04:55.440 --> 04:58.140
Vì vậy, phần này trông giống như nó tuyến tính.

04:58.140 --> 04:59.340
Sau đó bạn chia nhỏ nó ra như vậy.

04:59.610 --> 05:00.960
Ừm, một lần nữa.

05:00.960 --> 05:04.380
Vì vậy, đây là một lời giải thích rất thô.

05:04.380 --> 05:08.460
Nó không hoàn toàn hoàn hảo, nhưng ít nhất nó cũng cung cấp cho bạn một số ý tưởng về những gì đang xảy ra.

05:08.580 --> 05:12.840
Nhưng nếu bạn muốn tìm hiểu thêm, luôn có một tờ báo tốt.

05:12.840 --> 05:13.920
Luôn luôn có một tờ giấy.

05:13.950 --> 05:20.310
Công cụ này là của Keiko đến từ Đại học California, và nó được gọi là Hiểu mạng nơ-ron

05:20.310 --> 05:22.770
hợp hiến bằng mô hình toán học.

05:22.920 --> 05:28.740
Và về cơ bản, họ là người trả lời cho các câu hỏi và bạn chỉ cần xem câu hỏi đầu tiên.

05:28.740 --> 05:29.880
Và câu hỏi là tại sao không?

05:30.000 --> 05:35.430
Chức năng kích hoạt phi tuyến là cần thiết ở đầu ra bộ lọc của tất cả các lớp trung gian.

05:36.030 --> 05:43.080
Vì vậy, kiểu đó giải thích nó chi tiết hơn một chút, cả về trực giác và chủ yếu là về

05:43.080 --> 05:43.890
toán học.

05:44.070 --> 05:47.880
Vì vậy, đó là một bài báo thú vị, nơi bạn có thể có thêm một số thông tin bổ sung về chủ đề này.

05:47.880 --> 05:54.390
Và nếu bạn thực sự muốn tìm hiểu và khám phá một số nội dung thú vị ở đây, thì có một bài báo khác mà bạn

05:54.390 --> 05:55.590
có thể quan tâm.

05:55.590 --> 06:02.610
Nó được gọi là Delving Deep into Rectifier, vượt qua hiệu suất cấp 11 của con người về phân loại hình ảnh và mạng.

06:02.610 --> 06:13.680
Và ở đây, các tác giả tới đây và những người khác từ Microsoft Research, họ đề xuất một loại hàm

06:13.680 --> 06:17.460
đơn vị tuyến tính chỉnh lưu khác.

06:17.580 --> 06:22.680
Họ đề xuất hàm tuyến tính được điều chỉnh tham số, bạn thấy ở đây bên phải và họ lập

06:22.680 --> 06:26.520
luận rằng nó mang lại kết quả tốt hơn mà không làm giảm hiệu suất.

06:26.520 --> 06:31.830
Rất thú vị, hãy đọc nếu bạn muốn tìm hiểu sâu hơn về chủ đề này, và đó là tất cả cho ngày hôm nay.

06:31.830 --> 06:37.650
Layer mới thực sự khá đơn giản, khá đơn giản, chỉ cần áp dụng chức năng Rectifier.

06:37.650 --> 06:39.120
Và tôi mong được gặp bạn lần sau.

06:39.120 --> 06:40.890
Cho đến lúc đó, hãy tận hưởng việc học sâu.
