DRL:Deep  Reinforcement Learning

DRL:Deep Reinforcement Learning

یادگیری تقویتی عمیق
DRL:Deep  Reinforcement Learning

DRL:Deep Reinforcement Learning

یادگیری تقویتی عمیق

معرفی مقاله DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

 در این مقاله مدل‌های استدلالی نسل اول خود، DeepSeek-R1-Zero و DeepSeek-R1 را معرفی می‌کند. DeepSeek-R1-Zero، مدلی که از طریق یادگیری تقویتی در مقیاس بزرگ (RL) بدون تنظیم دقیق نظارت شده (SFT) به عنوان یک مرحله مقدماتی آموزش دیده است، قابلیت های استدلال قابل توجهی را نشان می دهد. از طریق RL، DeepSeek-R1-Zero به طور طبیعی با رفتارهای استدلالی قدرتمند و جذاب متعدد ظاهر می شود. با این حال، با چالش هایی مانند خوانایی ضعیف و ترکیب زبان مواجه می شود. برای رسیدگی به این مسائل و افزایش بیشتر عملکرد استدلال، DeepSeek-R1 را معرفی می‌کند که شامل آموزش چند مرحله‌ای و داده‌های شروع سرد قبل از RL است. DeepSeek-R1 به عملکردی قابل مقایسه با OpenAI-o1-1217 در وظایف استدلال دست می یابد. برای حمایت از جامعه تحقیقاتی، DeepSeek-R1-Zero، DeepSeek-R1 و شش مدل متراکم (1.5B، 7B، 8B، 14B، 32B، 70B) منبع باز که از DeepSeek-R1 بر اساس Qwen و Llama تقطیر شده اند.

این مقاله از لینک زیر قابل مشاهده است:

https://arxiv.org/abs/2501.12948

در لینک آپارات این مقاله را به صورت دقیق بررسی کرده است:

https://www.aparat.com/v/jzy30c8

چگونه الگوریتم های یادگیری تقویتی عمیق را انتخاب کنیم؟

با توجه به تنوع زیاد الگوریتم های تقویتی عمیق ر این مقاله به صورت خلاصه الگوریتمها و مزایا و موارد استفاده آنها را جمع بندی کرده است.

https://arxiv.org/abs/2407.20917

https://rl-picker.github.io/