جدول المحتويات:
تعريف - ماذا يعني التعلم التعزيز؟
تعلم التعزيز ، في سياق الذكاء الاصطناعي ، هو نوع من البرمجة الديناميكية التي تدرب الخوارزميات باستخدام نظام الثواب والعقاب.
تتعلم خوارزمية التعلم المعزز أو العامل عن طريق التفاعل مع بيئتها. يتلقى الوكيل المكافآت من خلال الأداء بشكل صحيح والعقوبات المفروضة على الأداء بشكل غير صحيح. يتعلم الموظف دون تدخل من الإنسان عن طريق زيادة مكافأته وتقليل العقوبة إلى الحد الأدنى.
Techopedia يشرح التعلم التعزيز
تعلم التعزيز هو نهج للتعلم الآلي مستوحى من علم النفس السلوكي. إنه مشابه لكيفية تعلم الطفل لأداء مهمة جديدة. يتناقض تعلم التعزيز مع أساليب تعلم الآلة الأخرى في أن الخوارزمية لا يتم إخبارها بشكل صريح عن كيفية أداء المهمة ، ولكنها تعمل على حل المشكلة بمفردها.
بصفته وكيلًا ، يمكن أن يكون سيارة ذاتية القيادة أو برنامجًا للعب الشطرنج ، يتفاعل مع بيئته ، ويتلقى حالة مكافأة اعتمادًا على كيفية أدائه ، مثل القيادة إلى الوجهة بأمان أو الفوز في لعبة. بالمقابل ، يحصل العميل على عقوبة بسبب أدائه بشكل غير صحيح ، مثل الخروج من الطريق أو الفحص.
يتخذ الوكيل بمرور الوقت قرارات لزيادة مكافأته وتقليل العقوبة إلى الحد الأدنى باستخدام البرمجة الديناميكية. تتمثل ميزة هذا النهج في الذكاء الاصطناعي في أنه يتيح لبرنامج الذكاء الاصطناعي أن يتعلم دون مبرمج يوضح كيف ينبغي على الوكيل أداء المهمة.