- عناصر کلیدی RL
برخی از عناصر کلیدی RL موارد زیر را شامل میشود.
1- عامل (Agent)
عامل یک برنامه نرم افزاری است که تصمیم گیری هوشمندانه را یاد میگیرد. می توانیم بگوییم که یک عامل یک یادگیرنده در تنظیمات RL است. به عنوان مثال، یک بازیکن شطرنج به عنوان یک عامل در نظر گرفته شده است، زیرا بازیکن یاد میگیرد که بهترین حرکت (تصمیم گیری) را برای برنده شدن در بازی انجام دهد.
به طور مشابه، ماریو در بازی ویدئویی برادران سوپر ماریو را میتوان در نظر گرفت. ماریو یک عامل است که با بررسی بازی، یاد میگیرد که بهترین حرکت در بازی را انجام دهد.
2- محیط (Environment)
محیط، دنیای عامل است. عامل در محیط حرکت میکند. به عنوان مثال، در بازی شطرنج ، صفحه شطرنج محیط نامیده میشود.
که بازیکن شطرنج (عامل) یاد میگیرد که بازی شطرنج را در صفحه شطرنج انجام دهد (محیط). به طور مشابه، در برادران سوپر ماریو، دنیای ماریو محیط نامیده میشود.
3- وضعیت و عمل (State and Action)
وضعیت، یک موقعیت یا یک لحظه در محیطی است که عامل میتواند در ان باشد. بسیاری از موقعیتها برای عامل در محیط وجود دارد و این موقعیتها state نامیده میشوند.
به عنوان مثال، در بازی شطرنج ، هرموقعیت در صفحه شطرنج، وضعیت نامیده میشود. که معمولا با S نشان داده میشود.
لذا عامل با محیط ارتباط برقرار می کند و با انجام یک عمل (Action) از یک حالت به حالت دیگر حرکت می کند. در محیط بازی شطرنج، عمل، همان حرکت انجام شده توسط بازیکن (عامل) است. عمل را معمولا با a نمایش میدهند.
4- پاداش(Reward)
عامل با انجام یک عمل با یک محیط ارتباط برقرار میکند و از یک حالت به حالت دیگر منتقل میشود. بر اساس عمل، عامل پاداش دریافت میکند. پاداش چیزی جز یک مقدار عددی نیست، مثلا +1 برای یک عمل خوب و -1 برای یک عمل بد است. سوال پیش میآید که چگونه تصمیم بگیریم که یک عمل خوب یا بد است؟
در مثال بازی شطرنج ، اگر عامل حرکتی را انجام دهد که در ان یکی از قطعات حریف از بازی خارج شود، ان را یک عمل خوب در نظر گرفته و عامل پاداش مثبت دریافت میکند. به طور مشابه، اگر عامل حرکتی را انجام دهد که منجر به بازی بهتری برای حریف شود ان را یک عمل بد درنظر گرفته و عامل پاداش منفی دریافت میکند. پاداش با R مشخص میشود.
ادامه مطلب ...