در این مقاله مدلهای استدلالی نسل اول خود، DeepSeek-R1-Zero و DeepSeek-R1 را معرفی میکند. DeepSeek-R1-Zero، مدلی که از طریق یادگیری تقویتی در مقیاس بزرگ (RL) بدون تنظیم دقیق نظارت شده (SFT) به عنوان یک مرحله مقدماتی آموزش دیده است، قابلیت های استدلال قابل توجهی را نشان می دهد. از طریق RL، DeepSeek-R1-Zero به طور طبیعی با رفتارهای استدلالی قدرتمند و جذاب متعدد ظاهر می شود. با این حال، با چالش هایی مانند خوانایی ضعیف و ترکیب زبان مواجه می شود. برای رسیدگی به این مسائل و افزایش بیشتر عملکرد استدلال، DeepSeek-R1 را معرفی میکند که شامل آموزش چند مرحلهای و دادههای شروع سرد قبل از RL است. DeepSeek-R1 به عملکردی قابل مقایسه با OpenAI-o1-1217 در وظایف استدلال دست می یابد. برای حمایت از جامعه تحقیقاتی، DeepSeek-R1-Zero، DeepSeek-R1 و شش مدل متراکم (1.5B، 7B، 8B، 14B، 32B، 70B) منبع باز که از DeepSeek-R1 بر اساس Qwen و Llama تقطیر شده اند.
این مقاله از لینک زیر قابل مشاهده است:
https://arxiv.org/abs/2501.12948
در لینک آپارات این مقاله را به صورت دقیق بررسی کرده است:
https://www.aparat.com/v/jzy30c8
با توجه به تنوع زیاد الگوریتم های تقویتی عمیق ر این مقاله به صورت خلاصه الگوریتمها و مزایا و موارد استفاده آنها را جمع بندی کرده است.
https://arxiv.org/abs/2407.20917
https://rl-picker.github.io/