DRL:Deep  Reinforcement Learning

DRL:Deep Reinforcement Learning

یادگیری تقویتی عمیق
DRL:Deep  Reinforcement Learning

DRL:Deep Reinforcement Learning

یادگیری تقویتی عمیق

معرفی کتاب Reinforcement Learning: An Introduction Second edition, in progress Richard S. Sutton and Andrew G. Barto

این کتاب در دنیا از منابع اصلی یادگیری تقویتی به شمار می‌رود

موضوع کتاب شامل موضوعاتی از قبیل روانشناسی, مسئله یادگیری تقویتی, یادگیری تفاوت زمانی, یادگیری تقویتی عمیق می‌باشد.

به یادگیری نحوه نگاشت یک وضعیت به یک اقدام به طوری که یک سیگنال پاداش عددی را حداکثر نماید یادگیری تقویتی می‌گویند». در این کتاب، نویسنده یادگیری از تعامل با محیط را از دیدگاه محاسباتی بررسی می‌کند و به‌جای آنکه به طور مستقیم از نظر تئوری یادگیری انسان یا موجودات را تحلیل نماید به دنبال یافتن شرایط یادگیری ایده‌آل است. همچنین در کتابی که می خوانید اثربخشی روش‌های یادگیری مختلف چون «یادگیری تقویتی»، مورد ارزیابی قرار می‌گیرد.


این کتاب از اینجا دانلود  کنید:

https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

معرفی مباحث کتاب یادگیری تقویتی

  1. مقدمه
  2. مسائل دسته های بازی
  3. مسئله یادگیری تقویتی
  4. برنامه نویسی پویا
  5. روش های مونته کارلو
  6. یادگیری تفاوت زمانی
  7. ردیابی های شایستگی
  8. یادگیری تقویتی عمیق 

معرفی مقاله DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

 در این مقاله مدل‌های استدلالی نسل اول خود، DeepSeek-R1-Zero و DeepSeek-R1 را معرفی می‌کند. DeepSeek-R1-Zero، مدلی که از طریق یادگیری تقویتی در مقیاس بزرگ (RL) بدون تنظیم دقیق نظارت شده (SFT) به عنوان یک مرحله مقدماتی آموزش دیده است، قابلیت های استدلال قابل توجهی را نشان می دهد. از طریق RL، DeepSeek-R1-Zero به طور طبیعی با رفتارهای استدلالی قدرتمند و جذاب متعدد ظاهر می شود. با این حال، با چالش هایی مانند خوانایی ضعیف و ترکیب زبان مواجه می شود. برای رسیدگی به این مسائل و افزایش بیشتر عملکرد استدلال، DeepSeek-R1 را معرفی می‌کند که شامل آموزش چند مرحله‌ای و داده‌های شروع سرد قبل از RL است. DeepSeek-R1 به عملکردی قابل مقایسه با OpenAI-o1-1217 در وظایف استدلال دست می یابد. برای حمایت از جامعه تحقیقاتی، DeepSeek-R1-Zero، DeepSeek-R1 و شش مدل متراکم (1.5B، 7B، 8B، 14B، 32B، 70B) منبع باز که از DeepSeek-R1 بر اساس Qwen و Llama تقطیر شده اند.

این مقاله از لینک زیر قابل مشاهده است:

https://arxiv.org/abs/2501.12948

در لینک آپارات این مقاله را به صورت دقیق بررسی کرده است:

https://www.aparat.com/v/jzy30c8