DRL:Deep  Reinforcement Learning

DRL:Deep Reinforcement Learning

یادگیری تقویتی عمیق
DRL:Deep  Reinforcement Learning

DRL:Deep Reinforcement Learning

یادگیری تقویتی عمیق

یادگیری تقویتی چیست؟

-                            عناصر کلیدی RL




برخی از عناصر کلیدی RL موارد زیر را شامل می‌شود.

1-     عامل (Agent)

عامل یک برنامه نرم افزاری است که تصمیم گیری هوشمندانه را یاد می‌گیرد. می توانیم بگوییم که یک عامل یک یادگیرنده در تنظیمات RL است. به عنوان مثال، یک بازیکن شطرنج به عنوان یک عامل در نظر گرفته شده است، زیرا بازیکن یاد می‌گیرد که بهترین حرکت (تصمیم گیری) را برای برنده شدن در بازی انجام دهد.

به طور مشابه، ماریو در بازی ویدئویی برادران سوپر ماریو را می‌توان در نظر گرفت. ماریو یک عامل است که با بررسی بازی، یاد می‌گیرد که بهترین حرکت در بازی را انجام دهد.

2-     محیط (Environment)

محیط، دنیای عامل است. عامل در محیط حرکت می‌کند. به عنوان مثال، در بازی شطرنج ،  صفحه شطرنج محیط نامیده می‌شود.

که بازیکن شطرنج (عامل) یاد می‌گیرد که بازی شطرنج را در صفحه شطرنج انجام دهد (محیط). به طور مشابه، در برادران سوپر ماریو، دنیای ماریو محیط  نامیده می‌شود.

3-     وضعیت و عمل  (State and Action)

وضعیت، یک موقعیت یا یک لحظه در محیطی است که عامل می‌تواند در ان باشد. بسیاری از  موقعیتها  برای عامل در محیط وجود دارد و این موقعیت‌ها state  نامیده می‌شوند.

به عنوان مثال، در بازی شطرنج ، هرموقعیت در صفحه شطرنج، وضعیت نامیده می‌شود. که معمولا با S نشان داده می‌شود.

لذا عامل با محیط ارتباط برقرار می کند و با انجام یک عمل (Action)  از یک حالت به حالت دیگر حرکت می کند. در محیط بازی شطرنج،  عمل، همان حرکت انجام شده توسط بازیکن (عامل) است. عمل را معمولا با a  نمایش می‌دهند.

4-     پاداش(Reward)

عامل با انجام یک عمل با یک محیط ارتباط برقرار می‌کند و از یک حالت به حالت دیگر منتقل می‌شود. بر اساس عمل، عامل پاداش دریافت می‌کند.  پاداش چیزی جز یک مقدار عددی نیست، مثلا +1 برای یک عمل خوب و -1 برای یک عمل بد است. سوال پیش می‌آید که چگونه تصمیم بگیریم که یک عمل خوب یا بد است؟

در مثال بازی شطرنج ، اگر عامل حرکتی را انجام دهد که در ان یکی از قطعات حریف از بازی خارج شود، ان را یک عمل خوب در نظر گرفته و عامل پاداش مثبت دریافت می‌کند. به طور مشابه، اگر عامل حرکتی را انجام دهد که منجر به بازی بهتری برای  حریف شود ان را یک عمل بد درنظر گرفته و عامل پاداش منفی دریافت می‌کند. پاداش با R مشخص می‌شود.

 

ادامه مطلب ...