-
چگونه الگوریتم های یادگیری تقویتی عمیق را انتخاب کنیم؟
پنجشنبه 30 اسفند 1403 09:06
با توجه به تنوع زیاد الگوریتم های تقویتی عمیق ر این مقاله به صورت خلاصه الگوریتمها و مزایا و موارد استفاده آنها را جمع بندی کرده است. https://arxiv.org/abs/2407.20917 https://rl-picker.github.io/
-
سیر تاریخی یادگیری تقویتی
چهارشنبه 29 اسفند 1403 14:02
-
سیر تاریخی هوش مصنوعی
چهارشنبه 29 اسفند 1403 14:00
-
کنترل TD خارج از سیاست - یادگیری Q (Q – Learning)
سهشنبه 28 اسفند 1403 22:57
در این بخش، الگوریتم کنترل TD خارج از سیاست به نام یادگیری Q را یاد خواهیم گرفت . این یکی از الگوریتم های بسیار محبوب در یادگیری تقویتی است و خواهیم دید که این الگوریتم در فصل های دیگر نیز مطرح میشود. یادگیری Q یک الگوریتم سیاست خارج از سیاست است ، به این معنی که ما از دو سیاست مختلف استفاده میکنیم، یک سیاست برای...
-
الگوریتم SARSA
سهشنبه 28 اسفند 1403 22:35
در روش کنترل ، هدف پیدا کردن سیاست بهینه است، بنابراین با یک سیاست تصادفی اولیه شروع خواهیم کرد و سپس سعی خواهیم کرد که سیاست بهینه را به صورت تکراری پیدا کنیم . در فصل قبلی، یاد گرفتیم که روش کنترل را می توان به دو دسته طبقه بندی کرد : · کنترل سیاست On-policy control ) ) · خارج از سیاست Off-policy control ) ) در فصل...
-
آشنایی با مونت کارلو
سهشنبه 14 اسفند 1403 21:03
خوب، وقتی پویایی مدل محیط را نمیدانیم چگونه میتوانیم سیاست بهینه را پیدا کنیم ؟ در چنین مواردی میتوانیم از روش های بدون مدل استفاده کنیم. در روشهای بدون مدل نیازی به دینامیک مدل محیط برای محاسبه مقدار و توابع Q به منظور پیدا کردن سیاست بهینه ندارند . یکی از این روشهای بدون مدل، روش مونت کارلو ( MC ) است. روش مونت...
-
روش برنامه نویسی پویا و بلمن
سهشنبه 14 اسفند 1403 20:52
روش مبتنی بر مدل یعنی برای پیدا کردن سیاست بهینه تنها زمانی که پویایی مدل (احتمال انتقال) محیط شناخته شده است کمک خواهند کرد. اگر دینامیک مدل را نداشته باشیم، نمیتوانیم این روش ها را اعمال کنیم. یکی از این روشها روش برنامه نویسی پویا (DP) است. دو روش مهم که با استفاده از DP برای پیدا کردن سیاست بهینه استفاده میشوند...
-
تابع مقدار(Value) و تابع Q
سهشنبه 14 اسفند 1403 20:02
تابع مقدار تابع مقدار، همچنین تابع مقدار حالت نامیده میشود، که نشاندهنده ارزش حالت است. ارزش یک حالت، بازگشتی ( مقدار پاداشی) است که یک عامل از ان حالت با پیروی از سیاست π به دست میاورد. مقدار یک حالت یا تابع مقدار معمولا با V(s) مشخص میشود و میتوان ان را به این شکل بیان کرد: که در ان s0 = s به این معنی است که...
-
یادگیری و انواع آن
سهشنبه 14 اسفند 1403 17:20
یادگیری ماشین شامل چهار شاخه است که عبارتند از: 1-یادگیری با ناظر 2- یادگیری بدون ناظر 3- یادگیری نیمه نظارتی 4- یادگیری تقویتی لذا یادگیری تقویتی (RL) یکی از زمینه های یادگیری ماشین (ML) است. بر خلاف سایر پارادایم های ML، مانند یادگیری تحت نظارت و بدون نظارت، دادهها در RL در یک مد ازمون و خطا ، از طریق تعامل با محیط...
-
آشنایی با فرایند مارکوف
چهارشنبه 8 اسفند 1403 10:57
فرایندهای تصمیمگیری مارکوف فرایند تصمیمگیری مارکوف ( MDP ) یک چارچوب ریاضی برای حل مسائل RL است. تقریبا تمام مسائل RL را میتوان به عنوان یک MDP مدل سازی کرد. MDP ها به طور گسترده ای برای حل مسائل مختلف بهینه سازی استفاده میشود. در این بخش، بررسی میکنیم که MDP چیست و چگونه در RL استفاده میشود. برای درک MDP ،...
-
یادگیری تقویتی چیست؟
چهارشنبه 8 اسفند 1403 10:17
- عناصر کلیدی RL برخی از عناصر کلیدی RL موارد زیر را شامل میشود. 1- عامل (Agent) عامل یک برنامه نرم افزاری است که تصمیم گیری هوشمندانه را یاد میگیرد. می توانیم بگوییم که یک عامل یک یادگیرنده در تنظیمات RL است. به عنوان مثال، یک بازیکن شطرنج به عنوان یک عامل در نظر گرفته شده است، زیرا بازیکن یاد میگیرد که بهترین...