WEBVTT

00:00.930 --> 00:03.840
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.840 --> 00:09.780
نواصل اليوم رحلتنا إلى عالم 83 درجة مئوية ، ونتحدث عن الجانب غير المتزامن

00:09.780 --> 00:14.190
لـ C بحيث يكون لدينا اختصار ، ميزة متزامنة ، ناقد نشط.

00:14.190 --> 00:18.900
واليوم سنكتشف ما يمثله التزامن هنا ، وما يعنيه.

00:18.900 --> 00:20.940
ودعنا نعود خطوة للوراء.

00:20.940 --> 00:23.730
دعونا نلقي نظرة على ما بدأنا به هذه الدورة التدريبية بأكملها.

00:23.730 --> 00:28.890
بدأنا بالتعلم المعزز وما يدور حول أن الفاعل في حالة معينة.

00:29.160 --> 00:34.260
إنهم يراقبون الدولة ، ويتخذون قرارات معينة ، ويتخذون إجراءات في تلك الحالة.

00:34.260 --> 00:36.660
ثم تتغير الدولة.

00:36.660 --> 00:38.910
لذلك يدخلون إلى حالة جديدة ، بالإضافة إلى أنهم يحصلون على مكافأة.

00:38.910 --> 00:45.570
لذلك يحصلون على مكافأة مقابل اتخاذ هذا الإجراء أو نوع من المكافأة التي يمكن أن تكون بمثابة عقوبة أيضًا.

00:45.840 --> 00:47.670
وينتهي بهم الأمر في حالة جديدة.

00:47.670 --> 00:52.350
وبناءً على ذلك ، يتخذون الآن إجراءً آخر مرة أخرى ، ويحصلون على مكافأة وينتهي بهم الأمر في حالة جديدة

00:52.350 --> 00:53.910
ويتخذون إجراءً آخر وما إلى ذلك.

00:54.390 --> 00:59.580
وهذا هو الأساس وراء كل التعلم المعزز.

00:59.580 --> 01:05.820
وهذا ما كنا نستخدمه في التعلم والتعلم العميق والتعلم التلافيفي العميق.

01:05.820 --> 01:10.560
وقد سمح ذلك لعملائنا بالتغلب تدريجيًا على البيئات الأكثر تعقيدًا والأكثر تعقيدًا.

01:10.560 --> 01:16.340
لكننا الآن بصدد تقديم مفهوم أفضل إلى أبعد من ذلك.

01:16.350 --> 01:23.130
خذ هذا إلى مستوى أعلى لما تقدمه a3c من خلال هذا العنصر المتزامن ، فبدلاً

01:23.130 --> 01:31.080
من قيام وكيل واحد بمهاجمة البيئة ، يكون لديهم ثلاثة وكلاء أو أي عدد من الوكلاء.

01:31.080 --> 01:34.110
لذلك العديد من العملاء يهاجمون نفس البيئة.

01:34.110 --> 01:39.300
والمفتاح هنا هو أن ما يسمى بالمتزامنة هو لأنها تمت تهيئتها بشكل مختلف.

01:39.300 --> 01:40.860
لذا فإن نقاط انطلاقهم مختلفة.

01:40.860 --> 01:46.470
على سبيل المثال ، كما سترى من المصطلحات العملية ، تقوم بتعيين بذرة عشوائية وتعيينها بشكل مختلف

01:46.470 --> 01:47.790
لكل من الوكلاء.

01:47.790 --> 01:53.100
وبهذه الطريقة ، نظرًا لاختلاف نقاط البداية لديهم ، فسوف يمرون أولاً بالبيئات

01:53.100 --> 01:55.710
بطرق مختلفة ثم يستكشفون بطرق مختلفة.

01:55.710 --> 01:58.530
وبعد ذلك في التكرار التالي ، سيستكشف أيضًا بطرق مختلفة.

01:58.530 --> 02:03.540
وهكذا ، على سبيل المثال ، إذا كان لديك ثلاثة وكلاء ، فإنك فجأة تحصل

02:03.540 --> 02:09.510
على ثلاثة أضعاف مقدار الخبرة بدلاً من مجرد وكيل واحد يمر ويستكشف البيئة ويحاول

02:09.510 --> 02:12.330
فهم كيفية العمل في تلك البيئة.

02:12.330 --> 02:17.670
لديك الآن ثلاثة أو العديد منهم يمرون بذلك ويحصلون على هذه التجربة.

02:17.670 --> 02:21.690
وهكذا يتعلم كل واحد منهم من خلال هذه التجربة الأكبر.

02:21.690 --> 02:29.280
وبصرف النظر عن كونه مجرد تقديم نطاق أوسع من الخبرة ، فإنه يقلل أيضًا من فرص تعثر وكيل واحد في

02:29.280 --> 02:31.260
الحد الأقصى المحلي.

02:31.260 --> 02:37.470
لذلك ، على سبيل المثال ، إذا وجد أحد الوكلاء طريقة للتغلب على البيئة ، وهذا ليس هو الأفضل ، لأنه

02:37.470 --> 02:42.210
إذا انحرف إلى اليسار أو إلى اليمين عن هذا الحل الذي وجده ، فسيتم معاقبتهم

02:42.210 --> 02:43.380
دائمًا.

02:43.380 --> 02:45.450
قد تتعثر في هذا الحد الأقصى المحلي.

02:45.460 --> 02:49.440
قد يستمر في فعل ذلك ، معتقدًا أن هذا هو الحل الأمثل حيث لا يوجد في الواقع.

02:49.440 --> 02:59.640
حسنًا ، احتمال تعلق عدة عوامل في نفس الحد الأقصى المحلي يتناقص أو يتناقص مع عدد العوامل.

02:59.640 --> 03:06.330
لذا فإن احتمال تعثر عامل واحد في حد أقصى محلي معين قد يكون مرتفعًا ، ولكن قد يكون

03:06.330 --> 03:07.920
له قيمة معينة.

03:07.920 --> 03:11.670
لكن الاحتمال عندما يكون لديك ثلاثة منهم ، من بينهم جميعًا يعلقون في هذا الحد الأقصى المحلي

03:11.670 --> 03:12.600
يكون أقل بكثير.

03:12.690 --> 03:17.850
وطالما أنهم يتشاركون الخبرة بين بعضهم البعض ، فيمكنهم مساعدة بعضهم البعض.

03:17.850 --> 03:20.970
لذلك إذا تعثر أحدهم ، على سبيل المثال ، فإنه عالق في الحد الأقصى المحلي.

03:20.970 --> 03:24.960
ما عليك سوى التفكير في أن هذا هو الأفضل ، وهذا أفضل حل هو الحل الأفضل طوال الوقت ويستمر

03:24.960 --> 03:28.020
في فعل ذلك جيدًا طالما أنه يتفاعل مع الوكلاء الآخرين.

03:28.020 --> 03:32.670
لنفترض أن هذا الرجل عالق في الحد الأقصى المحلي وطالما أنه يتفاعل مع الوكلاء الآخرين من

03:32.670 --> 03:37.530
خلال الطريقة التي نبني بها الخوارزمية بالكامل ، من خلال الخوارزمية ، فإنهم سيساعدونه.

03:37.530 --> 03:42.930
سيعطونه المعرفة التي تعرف حقًا ، مرحبًا ، يجب عليك استكشاف هذا أو من المرجح

03:42.930 --> 03:44.550
أن يخرج من ذلك.

03:44.550 --> 03:49.740
وأيضًا بشكل عام ، ستعرف البيئة أنه ، على الرغم من أن هذا الحد الأقصى رائعًا ، فإن هؤلاء الوكلاء

03:49.740 --> 03:54.990
الآخرين قد رأوا خيارات أفضل ويجب أن نستمر في الاستكشاف لأنهم يبدون وكأنهم خيارات أفضل.

03:54.990 --> 04:00.690
لذلك في نوع قصير جدًا من الفهم التقريبي والحدسي أن تلك هي بعض مزايا وجود هذه العوامل

04:00.690 --> 04:02.430
غير المتزامنة.

04:02.430 --> 04:05.910
بادئ ذي بدء ، لديك المزيد من الخبرة للاختيار من بينها والتعلم منها.

04:06.000 --> 04:08.070
يمكنك الوصول إلى الحل بشكل أسرع.

04:08.130 --> 04:16.410
وبصفة عامة ، هناك فرصة أقل للوقوع في حد أقصى محلي معين.

04:16.410 --> 04:20.670
لذلك دعونا نرى كيف يتم كل هذا في هذا النموذج الذي بنيناه حتى الآن.

04:20.670 --> 04:24.930
كما تتذكر ، هذا ما حصلنا عليه حتى الآن من خلال الناقد الإضافي.

04:24.930 --> 04:26.670
وهذا هو المكان الذي يرتبط فيه كل شيء.

04:26.670 --> 04:31.230
هذا أبعد ما تتذكره من البرنامج التعليمي السابق الذي قدمناه ، كما تعلم ، لقد حصلنا على هذا بالفعل

04:31.230 --> 04:35.100
حتى في التعلم التلافيفي العميق لـ Q ، لذلك نحن فقط نسميه إضافيًا الآن.

04:35.460 --> 04:38.670
لكن الآن قدمنا النقد ، لكن حتى الآن لم يكن له معنى حقًا.

04:38.670 --> 04:43.770
ما الهدف من وجود هذا النقد وقياس قيمة الدولة أو التنبؤ بقيمة

04:43.770 --> 04:48.060
الحالة باستخدام نفس الشبكات العصبية ، نفس النهج؟

04:48.330 --> 04:51.870
ولكن الآن هذا هو الجزء الذي سيبدأ في جعله أكثر منطقية.

04:52.260 --> 04:56.820
ما سنفعله هو أننا سنكرر هذا لأن لدينا الآن وكلاء متعددين.

04:56.820 --> 04:58.320
هذا هو الحال مع وكلاء متعددين.

04:58.320 --> 04:59.310
هذا ما سيبدو عليه الأمر.

04:59.310 --> 04:59.910
لذا.

05:00.530 --> 05:05.120
الطريقة الأولى لتخيلها الآن هي أن لدينا هذه الأشياء الثلاثة.

05:05.120 --> 05:09.170
حسنًا ، تذكر ما قلناه عن مشاركة التجربة بين بعضهم البعض.

05:09.170 --> 05:11.000
لذلك هذا صحيح بالفعل.

05:11.000 --> 05:12.200
الآن كلهم مستقلون.

05:12.200 --> 05:15.350
لديك شخص يلعب اللعبة ، وآخر يلعب اللعبة ، وآخر يلعب في اللعبة.

05:15.350 --> 05:19.400
يشبه الأمر إطلاق وكيلك على ثلاثة أجهزة كمبيوتر مختلفة.

05:19.400 --> 05:21.740
تضع ثلاثة أجهزة كمبيوتر مختلفة بجانب بعضها البعض وتقوم بتشغيلها.

05:21.740 --> 05:22.970
وهذا شيء عظيم ، كما تعلم.

05:22.970 --> 05:27.260
مثل ، في الواقع ، ستحصل على المزيد من الخبرة.

05:27.290 --> 05:29.750
ستحصل على المزيد من التنوع ، خاصةً إذا كانت مهيأة مختلفة.

05:29.750 --> 05:32.840
لذلك سنفترض من هنا أنها كلها أولية ، ومبدئية دائمًا مختلفة.

05:32.990 --> 05:37.820
على الرغم من أن لدينا نفس الصورة هنا ، سنعرف أنهما تمت تهيئتهما بشكل مختلف.

05:37.820 --> 05:43.220
لذلك لن يكون مثل التدريب المتطابق ، التعلم المتطابق من هذه اللعبة.

05:43.670 --> 05:47.540
وهكذا ، حتى لو كنت تضع ثلاثة أجهزة كمبيوتر جنبًا إلى جنب

05:47.540 --> 05:55.610
وقمت بتشغيلها ، نعم ، سيكون لديك المزيد من الخبرة لأنه سيكون لديك ثلاثة وكلاء يلعبون وأيضًا سيكون لديك أكبر

05:55.610 --> 05:58.490
مجموعة متنوعة من الحلول الممكنة.

05:58.490 --> 06:00.020
هذا صحيح.

06:00.020 --> 06:02.540
لكن المشكلة هي أنهم لا يشاركوننا تلك التجربة.

06:02.570 --> 06:04.010
إنهم لا يتعلمون من بعضهم البعض.

06:04.010 --> 06:06.740
لذلك ليس لديهم هذا التآزر.

06:06.740 --> 06:11.390
ليس لديهم الميزة أو القوة الإضافية التي سيحصلون عليها إذا كانوا يتعاونون.

06:11.390 --> 06:16.850
كما تعلم ، إذا كان لديك فريق من الأشخاص ، فإنهم يعملون بشكل أفضل معًا ، ثم كل واحد

06:16.850 --> 06:17.840
منهم على حدة.

06:17.840 --> 06:21.140
لذا كما هو الحال في فريق هنا ، لديك واحد زائد واحد زائد واحد ، إنها ثلاثة.

06:21.140 --> 06:23.120
لكن في الفريق ، واحد زائد واحد زائد واحد ليس ثلاثة.

06:23.120 --> 06:28.220
إنه مثل 33 لأنهم يستفيدون من نقاط القوة لدى بعضهم البعض ويخففون من نقاط ضعف بعضهم البعض.

06:28.220 --> 06:29.180
ونفس الشيء هنا.

06:29.180 --> 06:33.260
لذا إذا وضعت أجهزة الكمبيوتر الثلاثة هذه جنبًا إلى جنب ، نعم ، ستتمتع بخبرة أكبر

06:33.260 --> 06:36.080
وتنوع أكبر ، وربما سيصل شخص ما إلى حل أفضل من الآخر.

06:36.080 --> 06:39.500
هذا رائع ، لكنه سيكون أفضل إذا بدأوا في مشاركة هذه التجربة.

06:39.500 --> 06:41.030
وكيف يفعلون ذلك؟

06:41.030 --> 06:43.880
حسنًا ، من خلال هذا V نحسبه.

06:43.880 --> 06:49.310
إذن قيمة V هذه هي ناتج شبكتنا هي في الواقع هكذا.

06:49.310 --> 06:57.980
إذاً لديهم نفس الـ V لذا في كل مرة كل هؤلاء العملاء ، يساهمون في نفس الناقد.

06:57.980 --> 06:59.870
ليس لديهم نقاد منفصلون.

06:59.870 --> 07:01.190
لديهم ناقد مشترك.

07:01.190 --> 07:06.020
وهذا هو مفتاح كيفية ارتباط الناقد الفاعل بالمتزامن.

07:06.020 --> 07:09.650
لذلك هناك ناقد واحد يشاهده كلما اكتسب الخبرة.

07:09.650 --> 07:15.980
إذن كيف نحسب V ونحسب V كما تتذكر ، نحسب V من خلال القيم التي نحصل

07:16.370 --> 07:17.510
عليها.

07:17.510 --> 07:20.660
إذن المكافآت التي نحصل عليها من خلال البيئة.

07:20.660 --> 07:28.580
وحيث أن الوكلاء يستكشفون بيئتهم ، فإنهم يحسبون ، ويتوقعون V بالإضافة إلى أن لديهم

07:28.580 --> 07:30.620
V الذي يمكنهم حسابه.

07:30.630 --> 07:35.390
هذه كلها روابط تعود إلى ما ناقشناه بالفعل في الأقسام السابقة من هذه الدورة.

07:35.600 --> 07:43.100
لذلك لديهم بالفعل حرف V يمكنهم التنبؤ به مثل توقع من خلال المكافآت التي يعرفون أنها موجودة

07:43.100 --> 07:47.090
في هذه المتاهة والتي اكتشفوها بالفعل.

07:47.090 --> 07:51.860
وأثناء استكشافهم وبالطبع ، يمكن أن تتغير هذه القيمة ، لكن لديهم أيضًا الرقم V الذي يمثل

07:51.860 --> 07:53.390
ناتج الشبكة العصبية.

07:53.390 --> 08:00.230
لذا أثناء مرورهم بهذا ، سيقومون بتعديل شبكاتهم العصبية من أجل مطابقة أفضل لما

08:00.230 --> 08:01.340
هو متوقع.

08:01.340 --> 08:09.650
يتم مشاركة هذا بشكل أساسي ، ويتم مشاركة الجزء الحرج بين الوكلاء وهذه هي الطريقة التي يشاركون بها المعلومات

08:09.650 --> 08:11.120
بين بعضهم البعض.

08:11.120 --> 08:16.250
هذه هي الطريقة التي يمكنهم بها رؤية ما يحدث في البيئة المشتركة مع بعضهم

08:16.250 --> 08:20.840
البعض ثم استخدام ذلك كما سنرى أكثر في الجزء التالي في الميزة.

08:21.200 --> 08:25.280
استخدم ذلك لتحسين سلوكهم في تلك البيئة.

08:25.460 --> 08:32.690
والشيء الآخر الذي يجب ملاحظته هنا هو أنه كان a3c ، هذا مثل جوهر a3c حتى هنا.

08:32.990 --> 08:39.800
هذا نوع من إصدارات a3c ، ولكن هناك بالفعل تطبيق أفضل لهذا ، a3c ، والذي ستسمع عنه في

08:40.250 --> 08:46.640
الواقع Adland يتحدث عنه في أحد الدروس الأولى في الجانب العملي للأشياء.

08:46.640 --> 08:54.050
وما سيتحدث عنه هو كيف قام منشئ PyTorch بالفعل بإجراء تعديل على أحد الرموز التي تمت

08:54.050 --> 08:58.310
مشاركتها على GitHub حيث أخذ كل هذه الرموز.

08:58.310 --> 09:01.880
كما ترون الآن ، لديهم شبكات عصبية منفصلة وهم فقط يشاركون V.

09:02.060 --> 09:07.970
كان هذا التعديل الذي تم إجراؤه في الواقع هو أخذ كل هذه الشبكات العصبية ووضعها في واحدة ، وأخذها

09:07.970 --> 09:09.260
ووضعها معًا.

09:09.260 --> 09:14.990
في النهاية ، هناك شبكة عصبية واحدة فقط مشتركة بين الوكلاء.

09:14.990 --> 09:21.620
لذلك قبل أن يكون لديهم ، كل واحد منهم لديه شبكة عصبية واحدة والتي تمت مشاركتها للممثل والناقد.

09:21.620 --> 09:25.340
تمت مشاركة شبكة عصبية واحدة للممثل لمشاركة الشبكة العصبية الحرجة لشخصية الفاعل.

09:25.490 --> 09:31.340
الآن لديهم جميعًا شبكة عصبية واحدة مشتركة للممثل والناقد والممثل والناقد والممثل والناقد.

09:31.790 --> 09:35.030
ومن ثم فإن الناقد هنا مشترك.

09:35.030 --> 09:38.390
لذلك دعونا نرى دعنا ننتقل هذه الصور إلى اليسار هنا.

09:38.390 --> 09:39.350
لذا خصص بعض المساحة.

09:39.800 --> 09:48.050
وهذا في الأساس هو الهيكل أو الهيكل الذي سنستخدمه في الدروس العملية.

09:48.050 --> 09:53.570
أعلم أنه مثل هذا ، قد يبدو هذا مربكًا بعض الشيء في هذه المرحلة ، لكن لدينا واحدة أخرى

09:53.570 --> 09:55.730
لنتحدث عنها ، وهي تلك الميزة.

09:55.730 --> 10:00.260
وهناك سنرى كيف تسير الأمور بشكل أفضل قليلاً.

10:00.260 --> 10:00.380
لذا.

10:00.480 --> 10:02.670
سنتحدث عن الحدس في العمل هناك.

10:02.670 --> 10:05.570
لكن بشكل عام ، هذا هو ما هو عليه.

10:05.580 --> 10:10.560
هذه شبكة واحدة يستخدمها كل من الوكلاء بحيث يتشاركون.

10:10.560 --> 10:13.020
ما يعنيه ذلك أساسًا هو أنهم يتشاركون في الأوزان.

10:13.020 --> 10:16.080
يتم تقاسم أوزان الشبكة بين الوكلاء.

10:16.080 --> 10:19.590
وعندما يتم تحديثهم ، يقومون بتحديث الشبكة بالكامل ، وليس فقط الشبكة الخاصة بهم.

10:20.250 --> 10:21.600
وبعد ذلك لديهم نواتج.

10:21.600 --> 10:27.630
لديهم مثل هذه الإجراءات لكل وكيل ، ومن ثم لديهم الناقد الذي يتم مشاركته ، والذي سيتم مراقبته.

10:27.630 --> 10:34.410
لذا أعلم أن كل هذا يشبه إلى حد ما أن هناك الكثير من الأشياء في الوقت الحالي ، ولكن آمل أن تتضافر

10:34.770 --> 10:35.460
ببطء.

10:35.460 --> 10:42.000
على الأقل ، الخلاصة الرئيسية من هنا هي أن الناقد ، لأنه يتم مشاركته ، هكذا يستطيع

10:42.000 --> 10:48.540
الوكلاء التأكد من أنهم يتعاونون معًا للوصول إلى النتيجة بشكل أسرع.

10:48.540 --> 10:53.160
وبعد ذلك في الدرس التالي ، سنرى بشكل أكبر كيف يتم تجميع كل هذا ، وكيف يتجمع كل هذا

10:53.160 --> 10:53.610
معًا.

10:53.610 --> 11:01.140
والآن ، هناك ما أود أن أوصي به أو نوصي بقراءة إضافية.

11:01.140 --> 11:06.690
إذن هذه مدونة بقلم يارومير يانيش.

11:06.720 --> 11:08.560
يطلق عليه Let's Make a three key application.

11:08.560 --> 11:11.280
هناك في الواقع جزءان من التنفيذ والنظرية.

11:11.670 --> 11:12.450
هناك الارتباط.

11:12.450 --> 11:19.320
وهو مشابه جدًا لما سينفذه آلان في الجانب العملي من البرنامج التعليمي.

11:19.320 --> 11:24.810
لذلك فهو ليس مخصصًا لهذا البرنامج التعليمي ، وليس فقط للدرس التعليمي على وجه التحديد ، ولكنه

11:24.810 --> 11:30.840
مخصص لهذا القسم بأكمله في التشجيع هناك ، وبعض المعلومات الإضافية ، وبعض الأفكار الإضافية هناك.

11:30.840 --> 11:33.120
ولهذا السبب نطرحها هنا.

11:33.120 --> 11:38.280
لكن مع ذلك ، في البرنامج التعليمي التالي ، سنبدأ في تجميع كل هذا معًا ، كل ما ناقشناه

11:38.280 --> 11:38.940
من قبل.

11:39.000 --> 11:40.440
وأنا أتطلع إلى رؤيتك في المرة القادمة.

11:40.440 --> 11:41.760
وحتى ذلك الحين ، استمتع.

11:41.760 --> 11:42.300
أنا.