WEBVTT

00:00.360 --> 00:08.670
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับการเรียนรู้เชิงลึกนี่เป็นบทเรียนเพิ่มเติมเพื่อพูดคุยเกี่ยวกับฟังก์ชั่นเอนโทรปีที่อ่อนนุ่มและข้าม

00:08.670 --> 00:15.320
ไม่จำเป็นต้องมี 100%

00:15.330 --> 00:21.510
เพื่อให้คุณผ่านทุกส่วนที่เราเคยผ่านในส่วนหลักของส่วนนี้ที่เรากำลังพูดถึงเครือข่ายประสาทเทียม แต่ในเวลาเดียวกันฉันคิดว่ามันจะ

00:21.510 --> 00:26.580
นอกจากนี้ยังเป็นชุดกระเป๋าความรู้และทักษะของคุณ

00:26.580 --> 00:30.840
งั้นลองทำฟังก์ชั่นเหล่านี้กันก่อน

00:30.840 --> 00:37.530
ดังนั้นเพื่อเริ่มต้นกับสิ่งที่เรามีที่นี่คือบทสรุปของโครงข่ายประสาทที่เราสร้างขึ้นในส่วนหลักของส่วนและจากนั้นในตอนท้ายมันก็ปรากฏความน่าจะเป็นสำหรับศูนย์ 0

00:37.530 --> 00:48.000
90

00:48.000 --> 00:48.000
05 ห้าหรือ 5 เปอร์เซ็นต์สำหรับแมว

00:48.060 --> 00:57.210
ให้รูปนั้นทางซ้ายมือเป็นอินพุทนี่คือหลังจากที่รถไฟถูกใช้งานจริงแล้วมันกำลังทำงานอยู่

00:57.360 --> 01:00.850
แล้วคำถามตรงนี้คือค่าสองค่านี้มารวมกันได้อย่างไร

01:00.900 --> 01:11.600
เพราะเท่าที่เรารู้จากทุกสิ่งที่ฉันได้เรียนรู้เกี่ยวกับเครือข่ายประสาทเทียมไม่มีอะไรจะพูดได้เลยว่าเซลล์ประสาทสุดท้ายทั้งสองนี้เชื่อมต่อกัน

01:11.730 --> 01:17.310
ดังนั้นพวกเขาจะรู้ได้อย่างไรว่าคุณค่าของการถือครองแต่ละคนจะรู้ได้อย่างไรว่ามูลค่าของอีกอันคืออะไร

01:17.400 --> 01:20.140
และพวกเขาจะรู้ได้อย่างไรว่าจะเพิ่มค่าของพวกเขาได้อย่างไร

01:20.340 --> 01:22.060
คำตอบก็คือพวกเขาจะไม่

01:22.260 --> 01:28.500
ในรุ่นคลาสสิกของเครือข่ายประสาทเทียมของเราและวิธีเดียวที่พวกเขาทำคือเพราะเราแนะนำฟังก์ชั่นพิเศษที่เรียกว่าฟังก์ชั่น soft max

01:28.710 --> 01:33.960
เพื่อช่วยให้เราออกจากสถานการณ์

01:33.960 --> 01:44.940
ปกติแล้วสิ่งที่จะเกิดขึ้นก็คือสุนัขและเซลล์ประสาทของแมวจะมีคุณค่าที่แท้จริงใด ๆ ที่พวกเขาไม่จำเป็นต้องทำ

01:45.180 --> 01:51.900
แต่จากนั้นเราจะใช้ฟังก์ชั่น soft max ซึ่งเขียนขึ้นตรงนั้นที่ด้านบนและนั่นจะทำให้ค่าเหล่านี้อยู่ระหว่าง 0 ถึง 1

01:51.900 --> 01:58.430
และมันจะทำให้มันเพิ่มขึ้นเป็น 1 และ 3 PPTA

01:59.250 --> 02:04.320
ฟังก์ชั่น soft max หรือฟังก์ชั่น exponential

02:04.350 --> 02:11.640
ปกติเป็นลักษณะทั่วไปของฟังก์ชันลอจิสติกที่อ้างสควอช unquote มีเวกเตอร์มิติ k ของค่าจริงโดยพลการกับเวกเตอร์มิติ k

02:11.640 --> 02:15.320
ของค่าจริงในช่วงศูนย์ถึงหนึ่งที่เพิ่มขึ้น 1

02:15.330 --> 02:17.620
ดังนั้นโดยทั่วไปมันทำสิ่งที่เราต้องการ

02:17.670 --> 02:22.700
มันทำให้ค่าเหล่านี้อยู่ระหว่าง 0 ถึง 1 และตรวจสอบให้แน่ใจว่าพวกเขาเพิ่มขึ้นถึง 1

02:22.960 --> 02:29.970
และวิธีการทำงานก็คือวิธีที่เป็นไปได้คือเพราะที่ด้านล่างเราอยู่ที่นี่คุณจะเห็นว่ามีการรวมกัน

02:29.970 --> 02:38.830
ดังนั้นมันจึงใช้เลขชี้กำลังและวางไว้ในอำนาจของ Zed และรวมมันเข้าด้วยกันเพื่อให้เป็นหนึ่งในสองของชั้นเรียนทั้งหมดของคุณ

02:38.850 --> 02:39.990
ค่าเหล่านี้ทั้งหมด

02:39.990 --> 02:44.400
และนั่นก็คือการทำให้ปกติของคุณเกิดขึ้นตรงนี้

02:44.400 --> 02:51.300
นั่นคือวิธีที่ฟังก์ชั่น Saucebox

02:51.600 --> 02:59.490
ใช้งานได้และมันก็สมเหตุสมผลที่จะแนะนำฟังก์ชั่นถัดไปที่นุ่มนวลลงในเครือข่ายประสาทเทียมเพราะมันจะแปลกอย่างไรถ้าคุณมีสุนัขและแมวที่เป็นไปได้และ 80% สำหรับสุนัข

02:59.490 --> 03:05.140
.

03:05.160 --> 03:08.660
และสำหรับกรงเล็บของแมวคุณมีสิทธิ 45 เปอร์เซ็นต์ที่ดี

03:08.670 --> 03:14.430
มันไม่สมเหตุสมผลอย่างนั้นและดังนั้นจึงเป็นการดีกว่ามากเมื่อคุณแนะนำฟังก์ชั่นถัดไปที่นุ่มนวลและนั่นคือสิ่งที่คุณจะพบว่าเกิดขึ้นส่วนใหญ่ในเครือข่าย convolutional และ

03:14.430 --> 03:19.760
neural

03:19.770 --> 03:26.010
ตอนนี้อีกอย่างคือฟังก์ชั่น soft max มาพร้อมมือกับสิ่งที่เรียกว่าฟังก์ชั่น Cross

03:26.100 --> 03:29.040
entropy และมันเป็นสิ่งที่มีประโยชน์มากสำหรับเรา

03:29.050 --> 03:30.610
ดังนั้นก่อนอื่นลองดูสูตร

03:30.660 --> 03:33.090
นี่คือสิ่งที่ฟังก์ชั่น cross entry ดูเหมือน

03:33.090 --> 03:40.670
เรากำลังจะใช้การคำนวณที่แตกต่างกันซึ่งจะใช้การเป็นตัวแทนของศตวรรษนี้ แต่ผลลัพธ์ก็เหมือนกัน

03:40.670 --> 03:42.300
นี่ง่ายกว่าในการคำนวณ

03:42.570 --> 03:56.380
และสิ่งที่ฉันรู้ว่าสิ่งนี้อาจฟังดูไม่เกี่ยวข้องกับสิ่งใดในตอนนี้เพียงแค่สูตรบนหน้าจอของคุณ แต่จะมีบางส่วนที่แนะนำให้อ่านเพิ่มเติมในตอนท้ายของส่วนนี้จึงไม่ต้องกังวลหากคุณไม่ได้เรียนคณิตศาสตร์

03:56.380 --> 03:58.350
แม้ว่าเราจะไม่ได้อธิบายคณิตศาสตร์ในตอนนี้ก็ตาม

03:58.350 --> 04:03.630
แต่ประเด็นตรงนี้ก็คือสิ่งที่อยู่ตรงข้ามเอนโทรปีของฟังก์ชันเอนโทรปี

04:03.630 --> 04:17.760
โปรดจำไว้ว่าก่อนหน้านี้เราเคยใช้โครงข่ายประสาทเทียมเรามีฟังก์ชันที่เรียกว่าฟังก์ชันลูกศรกำลังสองเฉลี่ยซึ่งเราใช้เป็นฟังก์ชันราคาเพื่อประเมินประสิทธิภาพตามธรรมชาติของเรา

04:17.760 --> 04:23.750
และเป้าหมายของเราคือลด MSE เพื่อลดประสิทธิภาพเครือข่าย

04:23.940 --> 04:31.830
นั่นคือฟังก์ชั่นราคาของเราแล้วในเครือข่ายประสาทเทียมเรายังคงสามารถใช้ MSE ได้ แต่เป็นทางเลือกที่ดีกว่าในเครือข่ายประสาทประสาทหลังจากที่คุณใช้ฟังก์ชั่น soft

04:31.830 --> 04:38.070
max กลายเป็น cross entropy

04:38.070 --> 04:39.840
function

04:39.840 --> 04:49.450
และในเครือข่ายประสาทเทียมเมื่อคุณใช้ฟังก์ชั่นข้ามรายการไม่เสียค่าใช้จ่ายที่เรียกว่าฟังก์ชั่นค่าใช้จ่ายอีกต่อไปจะเรียกว่าฟังก์ชั่นสุดท้ายและพวกเขาจะคล้ายกันมาก

04:49.470 --> 04:55.520
พวกเขาเป็นเพียงความแตกต่างทางคำศัพท์เพียงเล็กน้อยและแตกต่างกันเล็กน้อยและในสิ่งที่พวกเขาหมายถึง

04:55.530 --> 04:58.430
แต่สำหรับทุกวัตถุประสงค์มันเหมือนกันมาก

04:58.450 --> 05:09.670
และสิ่งที่เกิดขึ้นคือฟังก์ชั่นสุดท้ายเป็นอีกสิ่งที่เราต้องการลดเพื่อเพิ่มประสิทธิภาพของเครือข่ายของเรา

05:09.690 --> 05:15.260
ลองมาดูตัวอย่างรวดเร็วเกี่ยวกับวิธีการใช้ฟังก์ชั่นนี้

05:15.260 --> 05:19.260
สมมุติว่าเรานำภาพสุนัขเข้ามาในเครือข่ายของเรา

05:19.650 --> 05:27.330
ค่าที่คาดการณ์สำหรับสุนัขคือ 0 9 และนี่คือการฝึกอบรมเพื่อให้เรารู้ว่าเรารู้ว่าฉลากนั้นเป็นสุนัข

05:27.330 --> 05:34.140
ค่าคาดการณ์ 0 9 ค่าที่กำหนดไว้สำหรับ cat คือ 0 1

05:34.140 --> 05:37.810
แล้วที่นี่เรามีฉลากเพื่อให้เรารู้ว่ามันเป็นสุนัขเพราะนี่เป็นการฝึก 0 1 สำหรับสุนัขหรือแมว

05:37.980 --> 05:47.600
ดังนั้นในกรณีนี้คุณต้องใช้คุณจำเป็นต้องเสียบตัวเลขเหล่านี้ลงในสูตรของคุณสำหรับการข้ามเอนโทรปี

05:47.810 --> 05:53.340
ดังนั้นวิธีที่คุณทำคือค่าทางด้านซ้ายไปยังคิววาจา

05:53.420 --> 05:58.940
สิ่งที่อยู่ภายใต้ลอการิทึมทางด้านขวาและค่าจากทางด้านขวาจะเข้าสู่ P

05:58.940 --> 06:04.340
และดังนั้นจึงเป็นสิ่งสำคัญที่ต้องจำว่าจะไปที่ใดเพราะถ้าคุณทำให้พวกเขาผิดคุณไม่ต้องการที่จะใช้ลอการิทึมสำหรับ ฉันทั้งหมดจากค่าศูนย์และหรือไปจาก

06:04.340 --> 06:09.620
1

06:09.620 --> 06:11.660
ดังนั้นคุณเพียงแค่ต้องการที่จะเสียบพวกเขา

06:11.720 --> 06:14.520
ตรวจสอบให้แน่ใจว่าคุณได้เสียบเข้าไปในตำแหน่งที่ถูกต้อง

06:14.840 --> 06:17.030
แล้วคุณก็บวกมันเข้าด้วยกัน

06:17.030 --> 06:32.360
นั่นคือวิธีการทำงานข้ามรายการและเราจะดูที่จริงตอนนี้เราจะดูตัวอย่างทีละขั้นตอนของการใช้ฟังก์ชั่นนี้ในชีวิตจริงและการใช้แบบไม่ดีทำให้รู้สึกได้ดีขึ้น มันจะน้อยกว่านี้

06:32.360 --> 06:43.840
เป้าหมายของฉันในงานหนักนี้คือการทำให้คุณสบายใจมากขึ้นในช่วงศตวรรษที่ผ่านมาเพราะมันฟังดูซับซ้อนมากและไม่มีเสียงปุนที่ตั้งใจไว้

06:43.850 --> 06:50.870
เช่นเดียวกับเครือข่ายประสาทเทียมที่ทำให้เกิดเสียงที่ซับซ้อนและน่ากลัว แต่ก็ไม่เป็นเช่นนั้น

06:50.870 --> 06:51.650
นั่นคือจุดที่

06:51.650 --> 06:54.090
ดังนั้นไปข้างหน้าและนำไปใช้เพียงเพื่อให้เรารู้ว่ามันไม่น่ากลัว

06:54.080 --> 06:56.350
ดังนั้นนี่คือทั้งหมดที่คุณต้องการ

06:56.360 --> 07:01.790
และสิ่งนี้จะอธิบายว่าทำไมเราถึงทำสิ่งนี้

07:01.790 --> 07:11.960
ดังนั้นโครงข่ายประสาทเทียมหนึ่งโครงข่ายประสาทเทียมสมมติว่าเรามีสองเครือข่ายประสาทและจากนั้นเราส่งภาพสุนัขและเรารู้ว่านี่เป็นสุนัขไม่ใช่แมว

07:12.200 --> 07:22.490
จากนั้นเราก็มีภาพแมวของเราอีกครั้งในเวลานี้สัตว์และมันเป็นแมวไม่ใช่สุนัขและที่นี่เรามีเรากำลังดูหลุมซึ่งอันที่จริงแล้วสุนัขไม่ใช่แมว

07:22.490 --> 07:24.280
ถ้าคุณมองอย่างใกล้ชิด

07:24.320 --> 07:28.440
ดังนั้นเราต้องการดูว่าเครือข่ายประสาทของเราจะทำนายอะไรในกรณีแรก

07:28.460 --> 07:36.110
เครือข่ายประสาท 1 สุนัข 90 เปอร์เซ็นต์แมว 10 เปอร์เซ็นต์ถูกต้องไม่มีหมายเลขเครือข่ายถึงสุนัข 60 เปอร์เซ็นต์แมว

07:36.110 --> 07:38.230
40 เปอร์เซ็นต์ยังคงถูกต้องแย่ลง

07:38.270 --> 07:40.030
แต่ถูกต้อง

07:40.280 --> 07:46.040
ตัวเลือกที่สองเครือข่ายประสาทแรกร้อยละ 10 แมวสุนัขแมวร้อยละ 90

07:46.040 --> 07:47.300
แก้ไข.

07:47.300 --> 07:53.560
คุณรู้ไหมว่าจำนวนถึงร้อยละ 30 สุนัขนั้นแย่กว่าแมวร้อยละ 70 แต่ก็ยังถูกต้อง

07:53.570 --> 08:01.460
และจากนั้นในที่สุดเครือข่ายประสาทในภาพเครือข่ายปีที่ได้รับรางวัลร้อยละ 40 สุนัขร้อยละ 60 แมวหมายเลขเครือข่ายประสาทที่ไม่ถูกต้องถึงร้อยละ

08:01.870 --> 08:08.270
10 สุนัขและร้อยละ 90 แมวไม่ถูกต้องและแย่ลง

08:08.270 --> 08:18.870
ดังนั้นกุญแจสำคัญในที่นี้คือแม้ว่าทั้งสองคนจะเข้าใจผิดในช่วงสุดท้ายผ่านทั้งสามเครือข่ายนิวรัลที่หนึ่งมีประสิทธิภาพสูงกว่าเครือข่ายประสาท

08:18.890 --> 08:27.010
ดังนั้นในกรณีสุดท้ายมันเป็นอย่างมากที่มันให้สุนัขเหมือนโอกาส 40

08:27.030 --> 08:35.310
เปอร์เซ็นต์เมื่อเทียบกับเครือข่ายประสาทเทียมเพื่อให้สุนัขโอกาส 10 เปอร์เซ็นต์เท่านั้นหรือเครือข่ายประสาทหนึ่งมีประสิทธิภาพสูงกว่าบอร์ดเมื่อเทียบกับเครือข่ายประสาท 2

08:35.520 --> 08:42.800
และตอนนี้เราจะดูฟังก์ชั่นที่พวกเขาสามารถวัดประสิทธิภาพที่เราได้พูดคุยเกี่ยวกับการจัดอันดับ

08:43.040 --> 08:48.090
ลองใส่สิ่งเหล่านี้ลงในตารางเพื่อให้มีโครงข่ายใยประสาทเทียม 1 คุณมีหมายเลขผิด

08:48.350 --> 08:49.430
นั่นคือหมายเลขภาพ

08:49.550 --> 08:51.140
และสำหรับภาพที่คุณมี

08:51.140 --> 08:54.010
อะไรคือสิ่งที่ทำนายไว้ 90 เปอร์เซ็นต์สุนัขชิมแปนซีและแมว

08:54.110 --> 09:00.550
ดังนั้นมีหมวก Marable แล้วคุณมีค่าจริงดังนั้นสุนัขที่ถูกต้องแมวไม่ถูกต้อง

09:00.560 --> 09:07.720
สิ่งเดียวกันสำหรับหมายเลขภาพสองและสิ่งเดียวกันสำหรับอย่างน้อยสามและเดียวกันสำหรับหมายเลขเครือข่ายประสาทสอง

09:07.750 --> 09:11.060
ดังนั้นสุนัข 60 เปอร์เซ็นต์เก็บภาพ 40 เปอร์เซ็นต์ในภาพแรก

09:11.060 --> 09:13.800
นั่นคือสิ่งที่คาดการณ์ได้จาก crotons คือสุนัขไม่ใช่แมว

09:13.820 --> 09:14.820
และอื่น ๆ

09:15.200 --> 09:18.050
ตอนนี้เรามาดูว่ามีข้อผิดพลาดอะไรบ้าง

09:18.050 --> 09:24.940
ดังนั้นข้อผิดพลาดอะไรที่เราสามารถคำนวณเพื่อประเมินประสิทธิภาพและตรวจสอบประสิทธิภาพของเครือข่ายของเรา

09:24.950 --> 09:28.480
ดังนั้นข้อผิดพลาดประเภทหนึ่งเรียกว่าข้อผิดพลาดการจัดหมวดหมู่

09:28.640 --> 09:33.990
และนั่นเป็นเพียงแค่ถามว่าคุณทำให้ถูกต้องหรือไม่

09:34.010 --> 09:36.940
ไม่ว่าความน่าจะเป็นเป็นเพียงแค่คุณได้รับสิทธิ์

09:36.950 --> 09:37.970
หรือคุณทำให้ถูกต้อง

09:37.970 --> 09:44.790
ดังนั้นในทั้งสองกรณีสำหรับเครือข่ายประสาททั้งสองพวกเขาจึงมี

09:44.810 --> 09:46.330
ดังนั้นนี่คือวิธีที่คุณผิดไป

09:46.340 --> 09:48.460
ดังนั้นพวกเขาจึงผิดหนึ่งในสาม

09:48.470 --> 09:54.960
ดังนั้นอัตราข้อผิดพลาด 33 เปอร์เซ็นต์สำหรับเครือข่ายของคุณ 1 และอัตราข้อผิดพลาด 30 เปอร์เซ็นต์สำหรับเครือข่ายประสาท

09:55.100 --> 10:00.250
เป็นพื้นฐานจากจุดยืนนี้ทั้งเครือข่ายประสาทดำเนินการในระดับเดียวกัน แต่เรารู้ว่าไม่เป็นความจริง

10:00.260 --> 10:04.400
เรารู้ว่าเครือข่ายประสาท Ikhwan มีประสิทธิภาพสูงกว่าเครือข่ายประสาท

10:05.120 --> 10:10.850
นั่นเป็นสาเหตุที่ข้อผิดพลาดการจัดหมวดหมู่ไม่ได้เป็นตัววัดที่ดีโดยเฉพาะอย่างยิ่งสำหรับวัตถุประสงค์ของการขยายพันธุ์กลับหมายความว่าข้อผิดพลาดกำลังสองแตกต่างกันและโดยวิธีการคำนวณเหล่านี้ใน

10:11.810 --> 10:22.010
Excel ทำในกระดาษหรือใน Excel

10:22.010 --> 10:35.010
สิ่งเหล่านี้เป็นการคำนวณที่ตรงไปตรงมาโดยทั่วไปเพียงนำผลรวมของข้อผิดพลาดกำลังสองแล้วก็หาค่าเฉลี่ยทั่วการสังเกตของคุณและมันก็ค่อนข้างมาก

10:35.060 --> 10:43.320
ดังนั้นสำหรับเครือข่ายนิวรัลหนึ่งจะได้รับ 25 เปอร์เซ็นต์สำหรับเครือข่ายนิวรัล 2 คุณจะได้รับอัตราความผิดพลาด 71

10:43.330 --> 10:45.930
เปอร์เซ็นต์เพื่อที่คุณจะเห็นว่านี่ถูกต้องมากขึ้น

10:45.940 --> 10:50.380
กำลังบอกเราว่าเกือบจะมีข้อผิดพลาดต่ำกว่าเครือข่ายของคุณ

10:51.150 --> 10:52.970
แล้วข้ามเอนโทรปีอีกครั้ง

10:52.990 --> 10:57.250
เราได้เห็นสูตรที่คุณสามารถคำนวณได้จริง ๆ แล้วง่ายกว่าการคำนวณมากกว่าค่าคลาดเคลื่อนกำลังสองเฉลี่ยข้ามพื้นที่ข้ามเอนโทรปีจะให้ 38 เปอร์เซ็นต์สำหรับเครือข่ายประสาท

10:57.250 --> 11:05.350
1 และ 1 0 6 สำหรับโครงข่ายประสาทเทียม 2

11:05.500 --> 11:08.180
ดังนั้นคุณจะเห็นผลลัพธ์ที่แตกต่างกันเล็กน้อย

11:08.350 --> 11:34.680
เมื่อคุณดูพวกมันแบบนั้นเมื่อคุณมองคุณรู้พื้นที่กระโปรงสั้นและข้ามเอนโทรปีและคำถามที่ว่าทำไมคุณถึงใช้ไขว้เอนโทรปีข้ามหมายความว่าข้อผิดพลาดกำลังสองนั้นไม่ได้เป็นเพียงตัวเลขที่พวกเขาพูด การคำนวณเป็นเพียงเพื่อแสดงให้คุณเห็นว่านี่คือทั้งหมดที่เป็นไปได้ทั้งหมดที่คุณสามารถทำได้บนกระดาษมันไม่ได้

11:34.780 --> 11:37.890
มันไม่ได้เป็นคณิตศาสตร์ที่รุนแรงมาก

11:37.890 --> 11:41.130
สิ่งเหล่านี้ค่อนข้างตรงไปตรงมา

11:41.200 --> 11:48.250
แต่คำถามที่ว่าทำไมคุณถึงใช้หมายถึงทำให้เอนโทรปีมีความหมายมากขึ้น

11:48.250 --> 12:01.430
ฉันดีใจที่คุณถามว่าคำตอบนั้นเหมือนมีข้อดีหลายประการของการข้ามเอนโทรปีของข้อผิดพลาดกำลังสองเฉลี่ยซึ่งไม่ชัดเจน

12:01.450 --> 12:07.160
ดังนั้นฉันจะพูดถึงคู่รัก แต่ถ้าอย่างนั้นฉันจะแจ้งให้คุณทราบว่าคุณจะหาข้อมูลเพิ่มเติมได้จากที่ไหน

12:07.160 --> 12:22.260
ดังนั้นหนึ่งในนั้นคือถ้าคุณยกตัวอย่างเช่นตอนเริ่มต้นการขยายพันธุ์กลับของคุณมูลค่าส่งออกของคุณนั้นเล็กมาก ๆ มาก ๆ

12:22.360 --> 12:25.680
ดังนั้นจึงมีขนาดเล็กกว่าค่าจริงที่คุณต้องการ

12:25.750 --> 12:33.840
เมื่อเริ่มต้นการไล่ระดับสีในโลกที่ยิ่งใหญ่และดีของคุณก็จะต่ำมากและคุณจะไม่พอ

12:33.850 --> 12:40.630
มันยากมากสำหรับเครือข่ายประสาทเทียมที่จะเริ่มทำบางสิ่งบางอย่างและเริ่มเคลื่อนที่ไปรอบ ๆ และเริ่มปรับน้ำหนักเหล่านั้นแล้วเริ่ม Movistar

12:40.630 --> 12:45.010
เคลื่อนที่ไปในทิศทางที่ถูกต้อง

12:45.130 --> 12:50.920
ในขณะที่เมื่อคุณใช้บางสิ่งบางอย่างเช่นเอนโทรปีของกากบาทเพราะมันมีลอการิทึมอยู่ในนั้นมันช่วยให้เครือข่ายประเมินได้แม้ในพื้นที่เล็ก

12:51.400 --> 12:57.310
ๆ เช่นนั้นและทำอะไรกับมัน

12:57.310 --> 12:58.520
นี่คือวิธีคิดเกี่ยวกับมัน

12:58.520 --> 13:03.260
สมมุติว่านี่เป็นวิธีที่ง่ายมาก ๆ

13:03.410 --> 13:11.260
จะมีการเชื่อมโยงไปยังคณิตศาสตร์และคุณสามารถได้รับสิ่งเหล่านี้ผ่านทางคณิตศาสตร์ในรายละเอียดมากขึ้น แต่วิธีการที่ใช้งานง่ายมาก

13:11.260 --> 13:16.030
สมมติว่าคุณชอบผลลัพธ์ที่คุณต้องการ

13:16.030 --> 13:22.810
เป็นหนึ่งและตอนนี้คุณอยู่ที่หนึ่งในล้านของหนึ่ง

13:22.870 --> 13:23.140
ขวา.

13:23.170 --> 13:32.680
$ 0 00 หรือมีหนึ่งและจากนั้นคุณปรับปรุงในครั้งต่อไปที่คุณปรับปรุงผลลัพธ์ของคุณจากจากหนึ่งล้านถึงหนึ่งพัน

13:32.860 --> 13:39.330
และในแง่ของถ้าคุณคำนวณข้อผิดพลาดกำลังสองคุณก็แค่ลบอันเดียวจากอันอื่น

13:39.610 --> 13:44.980
หรือโดยทั่วไปในแต่ละกรณีคุณคือ Kalka

13:44.980 --> 13:48.210
ในสี่เหลี่ยมและคุณจะเห็นว่าข้อผิดพลาดกำลังสองเมื่อคุณเปรียบเทียบกรณีหนึ่งกับอีกกรณีหนึ่งมันไม่ได้เปลี่ยนแปลงอะไร

13:48.220 --> 13:51.940
คุณไม่ได้ปรับปรุงเครือข่ายของคุณมากนักเมื่อดูที่ค่าเฉลี่ยที่นั่น

13:52.120 --> 14:01.090
แต่ถ้าคุณดูเอนโทรปีของการไขว้กันเพราะคุณหาลอการิทึมแล้วคุณก็เปรียบเทียบมันกับการหารอันหนึ่งกับอีกอัน

14:01.390 --> 14:12.810
คุณจะเห็นว่าคุณได้ปรับปรุงเครือข่ายของคุณอย่างมีนัยสำคัญเพื่อที่การกระโดดจากหนึ่งล้านถึง 1,000 ในข้อผิดพลาดกำลังสองเฉลี่ยจะต่ำมาก

14:12.820 --> 14:15.710
จะไม่มีนัยสำคัญและจะไม่

14:15.790 --> 14:22.270
มันจะไม่แนะนำกระบวนการเพิ่มระดับการไล่ระดับสีหรือการขยายด้านหลังในทิศทางที่ถูกต้อง

14:22.340 --> 14:34.960
ทุกอย่างมันจะนำไปในทิศทางที่ถูกต้อง แต่มันจะเป็นแนวทางที่ช้ามากมันจะไม่มีพลังเพียงพอในขณะที่ถ้าคุณทำเอนโทรปีใหม่ข้ามเอนโทรปีจะเข้าใจว่า

14:34.960 --> 14:43.770
การเปลี่ยนแปลงเล็กน้อยในแง่สมบูรณ์ในแง่สัมพัทธ์มันเป็นการปรับปรุงครั้งใหญ่

14:43.870 --> 14:46.110
และเราจะไปในทิศทางที่ถูกต้องอย่างแน่นอน

14:46.110 --> 15:01.090
มาต่อกันเพื่อให้เอนโทรปีข้ามจะช่วยให้เครือข่ายประสาทของคุณไปทางขวาได้รับสถานะที่ดีที่สุดเป็นวิธีที่ดีกว่าสำหรับเครือข่ายประสาทเพื่อรับไปยังสถานะที่เหมาะสม

15:01.090 --> 15:08.260
แต่จำไว้ว่าวิธีนี้ใช้ได้เมื่อข้ามเอนโทรปีเป็นวิธีการที่ต้องการสำหรับการจำแนกเท่านั้น

15:08.260 --> 15:26.200
ดังนั้นหากคุณกำลังพูดถึงสิ่งต่าง ๆ เช่นการถดถอยอย่างที่เรามีในโครงข่ายประสาทเทียมคุณควรจะไปกับฉันและข้อผิดพลาดกำลังสองในขณะที่เอนโทรปีข้ามจะดีกว่าสำหรับการจำแนกประเภทและอีกครั้ง

15:26.200 --> 15:34.740
ฟังก์ชั่นถัดไปซึ่งเป็นคำอธิบายที่เข้าใจง่ายว่าเป็นสถานที่ที่ดีในการเรียนรู้เพิ่มเติมเกี่ยวกับสิ่งนั้นถ้าคุณสนใจจริงๆคุณรู้ว่าทำไมเราถึงใช้ข้อผิดพลาดข้ามกับค่าเฉลี่ยกำลังสอง

15:35.200 --> 15:43.160
Google วิดีโอโดย Geoffrey Hinton เรียกว่าฟังก์ชั่น soft

15:43.160 --> 15:48.760
max output และเขาอธิบายได้ดีมากและคุณก็รู้ว่าเป็นเจ้าพ่อของการเรียนรู้อย่างลึกซึ้ง

15:48.890 --> 15:51.680
และโดยวิธีการที่วิดีโอใด ๆ โดย Geoffrey Hinton เป็นสีทอง

15:51.680 --> 15:55.590
เขามีพรสวรรค์อย่างมากที่จะอธิบายสิ่งต่าง

15:55.610 --> 16:02.110
นั่นคือความอ่อนนุ่มที่ดีเมื่อเทียบกับไม้กางเขนและฉันหวังว่ามันจะช่วยให้คุณเข้าใจถึงสิ่งที่เกิดขึ้นที่นี่

16:02.120 --> 16:11.280
แต่ที่สำคัญกว่านั้นคือคุณไม่ได้ถูกเลื่อนออกไปจากคำว่าการข้ามเอนโทรปีเพราะพาดหัวจะพูดถึงมันในเรื่องจริง

16:11.280 --> 16:15.740
และนี่เป็นอีกวิธีในการคำนวณฟังก์ชันสุดท้ายของคุณ

16:15.740 --> 16:21.830
และอีกวิธีในการเพิ่มประสิทธิภาพเครือข่ายของคุณซึ่งปรับให้เหมาะกับปัญหาการจำแนกประเภทและดังนั้นเครือข่ายประสาทเทียมที่ซับซ้อนและมาพร้อมกันด้วยฟังก์ชั่น

16:21.860 --> 16:28.180
soft max

16:28.280 --> 16:37.170
ดังนั้นการอ่านเพิ่มเติมถ้าคุณต้องการแนะนำเบา ๆ ให้กับเอนโทรปีของการข้ามหากคุณสนใจในสมาธิมากกว่า

16:37.250 --> 16:45.280
บทความที่ดีในการตรวจสอบเรียกว่าการแนะนำที่เป็นมิตรเพื่อข้ามการสูญเสียเอนโทรปีโดย Rob DePietro 2016

16:45.350 --> 16:46.860
นี่คือลิงค์ด้านล่าง

16:47.150 --> 16:54.350
ดีมากดีมากนุ่มมากและไม่มีอะไรซับซ้อนคณิตศาสตร์

16:54.440 --> 16:59.660
การเปรียบเทียบที่ดีตัวอย่างที่ดีโดยใช้การเปรียบเทียบของรถยนต์และคุณดูรถยนต์และพูดคุยเกี่ยวกับข้อมูลและบิตและข้อ

16:59.660 --> 17:04.910
จำกัด และคุณรู้ว่าคุณจะถอดรหัส

17:04.910 --> 17:11.680
Unico ทั้งหมดนี้ได้อย่างไรเพื่อให้เป็นบทความที่ดีที่จะดูและเราจะให้ ภาพรวมที่ดีของรายการข้ามเช่นจากมุมมองเบื้องต้น

17:11.900 --> 17:18.590
หากคุณต้องการที่จะขุดลงในคณิตศาสตร์หนักเช่นสิ่งที่คุณเห็นที่นี่แล้วตรวจสอบบทความโดยหรือบล็อกโดยวิธีการใช้

17:18.680 --> 17:27.410
Intermezzo เครือข่ายประสาทด้วยเช่นกันในแง่ของการใช้งานก็เหมือนสิ่งที่เป็นสื่อกลางเช่น

17:27.550 --> 17:28.910
เป็นระยะ ๆ ใน

17:28.990 --> 17:36.290
คุณรู้ไหมว่าเมื่อคุณไปโรงละครและคุณมีช่วงพักระหว่างส่วนแรกกับส่วนที่สอง

17:36.350 --> 17:42.210
ดังนั้นเพราะเขาชอบทำตามทุกขั้นตอนเหล่านี้แล้วเขาก็ชอบแล้วเขาก็บอกว่าฉันต้องอธิบายเรื่องนี้ก่อน

17:42.470 --> 17:44.080
และใช่ด้วยเหตุนี้จึงเรียกมันว่า

17:44.090 --> 17:52.470
ไม่มีเหตุผลอื่น ๆ เท่าที่ฉันเข้าใจบทความโดย Peter Rolands 2016 เช่นกันดังนั้นทั้งสองจึงค่อนข้างล่าสุด

17:52.580 --> 18:00.150
และคุณรู้ว่าลองดูสิ่งนี้หากคุณต้องการขุดลงในคณิตศาสตร์หลัง Kross เอนโทรปีหลัง soft Max และ cross

18:00.150 --> 18:02.600
entropy ในบทความนี้

18:02.930 --> 18:03.790
ดังนั้นเราไปกันเลย

18:03.860 --> 18:07.360
นั่นคือทั้งหมดที่มีให้กับสองคนนี้

18:07.370 --> 18:12.780
หวังว่าฉันจะสามารถเพิ่มความชัดเจนและโชคดีเพิ่มเติมได้

18:12.830 --> 18:16.970
มันจะสนุกและสนุกไปกับบทช่วยฝึกหัด

18:16.970 --> 18:18.070
ฉันจะพบคุณอีกครั้ง

18:18.080 --> 18:19.700
จนแล้วสนุกกับการเรียน