WEBVTT

00:00.270 --> 00:06.230
สวัสดีและยินดีต้อนรับสู่ไพพ์นี้และ Torro ตอนนี้เราต้องกำหนดตัวแปรห้าตัวของฟังก์ชั่นนี้นั่นคือสาม convolutions

00:06.240 --> 00:09.560
และการเชื่อมต่อชั่วคราว

00:09.810 --> 00:11.100
งั้นเริ่มจากอันแรกกัน

00:11.250 --> 00:18.690
Convolutional one ใช้ Convolutions

00:18.690 --> 00:22.710
กับภาพอินพุตดังนั้นจึงเป็นภาพต้นฉบับและตอนนี้คุณจะได้เห็นว่าทุกอย่างจะกลายเป็นเรื่องง่ายมากในการสร้าง Convolution

00:22.770 --> 00:29.070
สิ่งที่เราต้องทำก็คือสร้างหัวข้อของคลาสที่เฉพาะเจาะจงขึ้นมาและคลาสนี้มาจากนั้นจากนั้นคลาสก็มาถึงเพราะเราทำงานกับอิมเมจ

00:29.070 --> 00:40.930
2D และตอนนี้ดังที่คุณเห็นว่าเราต้องใส่หลาย ๆ ข้อโต้แย้ง

00:40.930 --> 00:43.140
คนแรกอยู่ในช่อง

00:43.190 --> 00:45.910
มาวางไว้ในช่อง

00:45.970 --> 00:49.210
ช่องที่สองออกนอกช่องทาง

00:49.330 --> 00:57.070
ขนาดที่สามคือขนาด Kerno และส่วนที่เหลือเป็นกางเกงขยายและอคติ

00:57.130 --> 00:59.120
และเรามีค่าแตกต่างกันสำหรับค่าเหล่านี้ทั้งหมด

00:59.260 --> 01:02.290
ดังนั้นเราจะไม่ไป แต่พวกเขาจะเก็บค่าเริ่มต้น

01:02.470 --> 01:09.740
แต่สิ่งที่สำคัญคือข้อโต้แย้งทั้งสามนี้ในช่องสัญญาณและช่องและขนาดเคอร์เนลดังนั้นฉันเดาว่ามันจะตรงกับอะไร

01:09.880 --> 01:17.900
โดยทั่วไปแล้วมีความสอดคล้องกับอินพุตของการสนทนาและทุกช่องทางสอดคล้องกับผลลัพธ์ของข้อสรุป

01:17.920 --> 01:19.940
แล้วมันจะเป็นอะไร

01:20.110 --> 01:24.460
อย่างง่ายมากที่จะเป็นจำนวนช่องในภาพของเรา

01:24.610 --> 01:31.360
และจริง ๆ แล้วเรากำลังจะทำงานกับภาพขาวดำเพราะโดยพื้นฐานแล้วเราไม่มีสีที่จะจดจำสัตว์ประหลาด

01:31.450 --> 01:35.310
AI นั้นสามารถจดจำสัตว์ประหลาดในสีดำและสีขาวได้ทั้งหมด

01:35.440 --> 01:39.200
ดังนั้นเราไม่เห็นสีเลยเพียงแค่จำพวกมันด้วยรูปร่าง

01:39.250 --> 01:46.820
ดังนั้นเราจะใช้หนึ่งช่องดังนั้นหนึ่งช่องคือเมื่อคุณมีภาพขาวดำและสามช่องคือเมื่อคุณเรียกภาพ

01:46.930 --> 01:51.320
และเนื่องจากเรากำลังทำงานกับภาพขาวดำในช่องมันจะเท่ากับหนึ่งแล้วช่องของเราดังนั้นช่องของเราจะเท่ากับภาพที่คุณต้องการมีใน

01:51.340 --> 02:02.970
convolutional นั่นคือผลลัพธ์ของรัฐธรรมนูญ หนึ่ง.

02:02.970 --> 02:15.040
และโดยพื้นฐานแล้วนี่เท่ากับจำนวนฟีเจอร์ที่คุณต้องการให้กับข้อความในภาพต้นฉบับของคุณเพราะใครจะสร้างหนึ่งภาพต่อคุณสมบัติที่เราต้องการตรวจจับ

02:15.120 --> 02:26.450
เราใช้เครื่องตรวจจับคุณสมบัติหนึ่งกับภาพอินพุตเพื่อตรวจจับคุณสมบัติเฉพาะในภาพอินพุตดังนั้นจำนวนภาพที่ส่งออกที่นี่คือจำนวนคุณลักษณะที่เราต้องการตรวจจับ

02:26.460 --> 02:30.110
ดังนั้นตอนนี้คำถามก็คือเราต้องการตรวจจับคุณสมบัติหลายอย่าง

02:30.240 --> 02:38.730
วิธีปฏิบัติทั่วไปก็คือเริ่มต้นด้วยตัวตรวจจับคุณสมบัติ 32 ตัวและจะนำเราไปสู่รูปภาพ

02:38.820 --> 02:46.170
32 เปอร์เซ็นต์ในเลเยอร์ convolutional

02:46.170 --> 02:53.010
แรกนี้ดังนั้นอินพุตเป็นภาพขาวดำหนึ่งภาพที่แท้จริง และโดยการประมวลผลฉันหมายถึงแน่นอนว่าข้อสรุปถูกนำไปใช้กับภาพอินพุตเพื่อรับ 32

02:53.380 --> 02:59.750
ภาพใหม่พร้อมคุณสมบัติที่ตรวจจับได้

03:00.240 --> 03:09.450
แล้วเราต้องระบุขนาดเคอร์เนลซึ่งไม่มีอะไรอื่นนอกจากขนาดของสแควร์ที่จะผ่านภาพต้นฉบับ

03:09.600 --> 03:15.350
และในทางปฏิบัติเราใช้ทั้งซื้อสองหรือสามกว้างสามหรือห้าโดยห้า

03:15.660 --> 03:24.580
และสำหรับอันแรกเราจะใช้ตัวตรวจจับคุณสมบัติแบบห้าถึงห้าตัวซึ่งเป็นตัวตรวจจับคุณสมบัติที่จะมีห้าถึงห้าเครื่องยนต์ 10 ตัว

03:24.810 --> 03:29.290
จากนั้นเราจะลดขนาดของเคอร์เนลนี้สำหรับเลเยอร์ convolutional ถัดไป

03:29.340 --> 03:32.320
และการพูดถึงสิ่งนี้คือสิ่งที่เรากำลังจะทำตอนนี้

03:32.390 --> 03:43.370
เรากำลังจะคัดลอกสิ่งนี้เพื่อกำหนดสังวัตนาที่สองและดังนั้นฉันจึงอ้างอิงว่าที่นี่และตอนนี้มันตลกและง่ายมากมันเหมือนโดมิโน

03:43.500 --> 03:49.810
ช่องอินพุตของเลเยอร์ convolutional ที่สองคือแชนเนลเอาต์พุตของ convolutional แรก

03:49.950 --> 03:55.300
จำนวนเอาต์พุต 32 นี่คือจำนวนอินพุต 32 เท่ากันที่นี่

03:55.420 --> 04:01.290
และนั่นเป็นเพราะเรามี 32 ภาพในเลเยอร์ convolutional อินพุตของการโน้มน้าวใจที่สอง

04:01.440 --> 04:10.340
ดังนั้นการแปลงที่สองจะถูกนำไปใช้กับชั้นที่สองนี้เพื่อคืนชั้นที่สาม

04:10.530 --> 04:13.280
ดังนั้นตอนนี้คำถามก็คือเราต้องการภาพใหม่กี่ภาพ

04:13.410 --> 04:19.820
เช่นเดียวกันที่สร้างภาพใหม่ 32 ภาพ 32 อันที่จริงแล้วเป็นตัวเลขที่พบบ่อยมากในเครือข่ายประสาทเทียมหากคุณดูสถาปัตยกรรมคุณจะพบ

04:19.830 --> 04:23.710
32 ในหลายภาพ

04:24.030 --> 04:30.610
และสำหรับขนาดเคอร์เนลเราต้องลดขนาดเคอร์เนลนั่นคือขนาดของตัวตรวจจับคุณสมบัติของเรา

04:30.780 --> 04:37.680
ทีนี้เราจะไปจากห้าไปสี่หรือสามแล้วเราก็จะเล็กลง

04:37.920 --> 04:40.790
เอาเป็นว่าข้อตกลงครั้งที่สองของเราพร้อมแล้ว

04:40.830 --> 04:43.830
ใช้เป็นอินพุตกระบวนการประมวลผลภาพที่ 32

04:43.890 --> 04:51.130
หนึ่งในคุณสมบัติแรกของภาพอินพุตต้นฉบับและสร้างภาพใหม่ 32 ภาพ

04:51.270 --> 04:54.990
ขอบคุณมิติที่ลดลงของตัวตรวจจับคุณสมบัติ

04:55.120 --> 04:57.250
ตอนนี้เรามาผลักดันสิ่งนี้ให้มากขึ้น

04:57.300 --> 05:05.450
ดังนั้นฉันจึงคัดลอกและวางที่นี่เพื่อสร้างการโน้มน้าวใจที่สามเพื่อตรวจสอบคุณสมบัติบางอย่าง

05:05.470 --> 05:08.010
และตอนนี้นั่นคือช่องสัญญาณอินพุทเดียวกัน

05:08.010 --> 05:13.800
นี่คือจำนวนของภาพอินพุตที่ด้านซ้ายของการเชื่อมต่อ deconvolution และนั่นคือจำนวนของภาพ precess ที่ไปทางด้านขวาของการเชื่อมต่อ

05:13.800 --> 05:17.740
convolution ก่อนหน้า

05:17.740 --> 05:18.710
นั่นคือ 32

05:18.750 --> 05:20.030
ดังนั้นเราจึงเสียใจที่ได้ยิน

05:20.030 --> 05:20.990
มันสมบูรณ์แบบ

05:21.220 --> 05:25.220
และตอนนี้คำถามก็คือเราต้องการตรวจจับภาพใหม่กี่ภาพ

05:25.310 --> 05:31.130
เรากำลังจะใช้เวลา 64 และดังนั้นจึง 64 เอาท์พุทภาพ precess

05:31.260 --> 05:36.800
และแน่นอนตอนนี้เราใช้ขนาดเคอร์เนลที่เล็กลง

05:36.800 --> 05:45.840
และนั่นเป็นสถาปัตยกรรมแบบคลาสสิกของกลุ่มสนทนาที่นั่นและมีประสิทธิภาพมากในการตรวจจับคุณสมบัติระดับสูงภายในภาพ

05:46.200 --> 05:53.510
เอาล่ะตอนนี้เรามี convolutional สามตัวแล้วเรามีการเชื่อมต่อแบบสามทางที่นี่

05:53.640 --> 05:59.970
ทีนี้ถึงเวลาที่จะเชื่อมต่อฟันของเราที่ฉันเตือนว่าเราจะเอาเวกเตอร์ขนาดใหญ่นี้ที่เราได้รับหลังจากการทำให้แบนทั้งหมด 64

05:59.970 --> 06:07.710
ครั้ง 32 ครั้ง 32

06:08.160 --> 06:16.590
ครั้งอีก 32 ภาพที่เราได้รับจากความเชื่อเหล่านี้ เราสามารถเวกเตอร์ขนาดใหญ่หนึ่งอันที่จะกลายเป็นอินพุตของเครือข่ายประสาทที่เชื่อมต่อใหม่อย่างสมบูรณ์

06:16.860 --> 06:28.270
นั่นคือตอนที่เราต้องทำการเชื่อมต่อระหว่างเวกเตอร์ขนาดใหญ่นี้กับเลเยอร์ที่ซ่อนไว้ก่อนแล้วก็เชื่อมต่อเต็มรูปแบบที่สองระหว่างเลเยอร์ที่ซ่อนอยู่กับเอาท์พุทที่ประกอบด้วยเซลล์ประสาทเอาท์พุท

06:28.320 --> 06:31.940
แต่ละอันสอดคล้องกับค่าคิวบ์ของการกระทำที่เป็นไปได้

06:31.980 --> 06:33.960
ลองสร้างการเชื่อมต่อสองอันนี้กัน

06:33.960 --> 06:35.220
คุณรู้วิธีการทำ

06:35.220 --> 06:37.550
นั่นคือสิ่งที่เราทำสำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเอง

06:37.560 --> 06:38.800
ลองทำอีกครั้ง

06:39.000 --> 06:46.890
ก่อนอื่นเราจะใช้ Maggio ของเราจากนั้นเราจะใช้ Lynnie

06:46.920 --> 06:49.060
ในชั้นเรียนของเราเพราะการเชื่อมต่อที่เราสร้างขึ้นนั้นเป็นจุดประสงค์ของชนชั้นปกครอง

06:49.260 --> 06:50.550
แล้วในวงเล็บ

06:50.670 --> 06:58.620
นั่นคือสิ่งเดียวกันสำหรับใส่คุณสมบัติการป้อนข้อมูลที่เป็นจำนวนของพวกเขาแล้วคุณสมบัติการส่งออก

06:58.850 --> 07:03.110
ดังนั้นคุณสมบัติอินพุตสำหรับการเชื่อมต่อแบบเต็มครั้งแรกจะเป็นอย่างไร

07:03.340 --> 07:13.830
นั่นจะเท่ากับจำนวนพิกเซลที่มีในการเปลี่ยนแปลงเวคเตอร์อันยิ่งใหญ่นี้หลังจากที่อิมเมจกระบวนการทั้งหมดหลังจากแฟลกทั้งหมดสามครั้ง

07:13.830 --> 07:15.110
แล้วเลขนี้คืออะไร

07:15.220 --> 07:17.350
ที่จริงมีเคล็ดลับอยู่ที่นี่

07:17.380 --> 07:19.620
หมายเลขนี้ยากที่จะได้รับ

07:19.660 --> 07:22.770
เราจำเป็นต้องสร้างฟังก์ชั่นเพื่อคำนวณจำนวนนั้น

07:22.960 --> 07:25.570
เราไม่มีตัวแปรที่จะได้หมายเลขนี้มาให้เรา

07:25.570 --> 07:29.040
เราต้องคำนวณมันและดังนั้นสิ่งที่เรากำลังจะทำตอนนี้

07:29.150 --> 07:34.780
และตอนนี้มันสำคัญมากที่จะเข้าใจความคิดของการเขียนโปรแกรมที่เราต้องมีและพยายามนำความคิดที่เป็นสิ่งที่คุณต้องคิดตอนนี้เพื่อเอาชนะอุปสรรคนี้เพราะครั้งแรกที่คุณอาจบอกว่าฉันไม่

07:35.200 --> 07:45.690
มีจำนวนเซลล์ประสาทในเวกเตอร์ Flaten

07:45.730 --> 07:46.650
ฉันควรทำอย่างไร.

07:46.660 --> 07:47.600
ฉันติดอยู่ที่นี่

07:47.800 --> 07:55.720
ไม่จริงเพราะสิ่งที่คุณทำได้ตอนนี้เพียงแค่ใส่ชื่อใด

07:55.720 --> 08:05.130
ๆ ที่นี่ซึ่งจะแสดงจำนวนของเซลล์ประสาทจึงแปลกที่จำนวนเซลล์ประสาทจำนวนเซลล์ประสาทแล้วเราก็จะทำให้ฟังก์ชั่นที่จะกลับมาและตัวแปรของเซลล์ประสาทจำนวนนี้

08:05.180 --> 08:07.100
จำนวนพิกเซลนี้เรากำลังมองหา

08:07.330 --> 08:17.090
ดังนั้นเราสามารถทำได้โดยสิ้นเชิงที่เราสามารถใส่เสียงที่แน่นอนว่าจะได้รับคำเตือนเพราะมันยังไม่มีอยู่ แต่เราจะสร้างมันขึ้นมาหลังจากนั้นด้วยฟังก์ชั่น

08:17.350 --> 08:21.140
และเราได้รับอนุญาตทั้งหมดให้ทำเช่นนั้นแม้ว่าฟังก์ชั่นจะมาภายหลัง

08:21.170 --> 08:25.970
นั่นเป็นความคิดทั่วไปที่คุณต้องมีเมื่อคุณเจออุปสรรคแบบนั้น

08:26.020 --> 08:29.710
คุณสามารถสร้างฟังก์ชั่นเพื่อรับสิ่งที่คุณขาดไปได้

08:29.740 --> 08:32.640
ถูกต้องแล้วคุณสมบัติของเราและอนาคตของเรา

08:32.650 --> 08:37.830
นั่นคือจำนวนเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่และในครั้งนี้ขึ้นอยู่กับคุณ

08:37.870 --> 08:41.230
ขึ้นอยู่กับสถาปัตยกรรมของเครือข่ายใหม่ที่คุณต้องการสร้าง

08:41.230 --> 08:44.230
ดังนั้นตัวเลขที่ดีจะไม่เป็นจำนวนน้อย

08:44.230 --> 08:46.960
ตัวอย่างเช่น 40 เซลล์ประสาทอาจไม่เป็นไร

08:46.960 --> 08:48.660
เราสามารถลองเพิ่มได้

08:48.790 --> 08:51.280
หากการฝึกไม่ช้าเกินไปคุณสามารถลองเพิ่มมันได้

08:51.340 --> 08:56.750
บางทีนั่นอาจช่วยปรับปรุงการคาดการณ์ แต่เริ่มกันด้วย 40 บางทีเราจะเพิ่มมันทีหลัง

08:57.130 --> 09:09.300
เอาล่ะนั่นคือการเชื่อมต่อเต็มรูปแบบแรกจากนั้นเราจะคัดลอกวางที่นี่สำหรับการเชื่อมต่อเต็มรูปแบบที่สองนั่นคือการเชื่อมต่อระหว่างเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุท

09:09.370 --> 09:15.720
ดังนั้นคุณสมบัติที่นี่จึงกลายเป็นคุณสมบัติของเลเยอร์ก่อนหน้าและนั่นคือ 40

09:15.790 --> 09:18.020
ดังนั้นที่นี่เราสามารถใส่ 40

09:18.190 --> 09:20.500
แน่นอนว่าจำนวนเซลล์ประสาทในเลเยอร์

09:20.860 --> 09:27.280
และอนาคตของเราจะเท่ากับจำนวนเซลล์ประสาทเอาท์พุทที่ไม่ควรมีเครือข่ายประสาท

09:27.340 --> 09:38.440
และเนื่องจากเซลล์ประสาทเอาท์พุทแต่ละตัวสอดคล้องกับค่าใหม่หนึ่งค่าและหนึ่ง Cuvee และการตอบสนองต่อการกระทำหนึ่งในขณะที่จำนวนเซลล์ประสาทเอาท์พุทที่นี่เป็นจำนวนการกระทำแน่นอนและเรามีตัวแปรหนึ่งตัว

09:38.740 --> 09:47.320
เราไปขอแสดงความยินดี

09:47.390 --> 09:55.960
เราพบสถาปัตยกรรมของเครือข่ายประสาทของเราเครือข่ายประสาทของเราประกอบด้วยสามชั้น convolutional และชั้นซ่อนหนึ่ง

09:56.130 --> 10:03.020
ทั้งหมดนี้เป็นหนึ่งใน CNN ที่ยิ่งใหญ่และ CNN นี้จะตรวจจับคุณสมบัติต่างๆในเกมเพื่อที่

10:03.020 --> 10:06.550
AI จะได้รู้ว่ามันต้องทำที่ไหนที่มันต้องไปที่ไหนและที่ไหนที่มันต้องยิง

10:06.900 --> 10:08.240
ถ้าอย่างนั้นเราก็ไปขั้นตอนนี้

10:08.340 --> 10:10.720
นั่นเป็นขั้นตอนแรกที่สำคัญมากที่ทำ

10:10.720 --> 10:17.010
ตอนนี้เรากำลังจะไปสู่ขั้นตอนต่อไปซึ่งแน่นอนว่าจะได้จำนวนเซลล์ประสาทที่ยังขาด

10:17.010 --> 10:21.930
นั่นคือเหตุผลที่เรามีคำเตือนที่นี่และเซลล์ประสาทหมายเลขโทรศัพท์ แต่ไม่ต้องกังวล

10:21.960 --> 10:30.210
ทีนี้เราจะสร้างฟังก์ชั่นที่จะคืนจำนวนของเซลล์ประสาทในเวกเตอร์ขนาดใหญ่นี้และเราจะใส่ตัวเลขนั้นในตัวแปรที่จะเรียกจำนวนของเซลล์ประสาท

10:30.270 --> 10:32.070
ลองทำในบทต่อไป

10:32.070 --> 10:33.130
นั่นคือขั้นตอนต่อไปของเรา

10:33.180 --> 10:34.790
และจนกว่าจะสนุกกับ AI