این کتاب در دنیا از منابع اصلی یادگیری تقویتی به شمار میرود
موضوع کتاب شامل موضوعاتی از قبیل روانشناسی, مسئله یادگیری تقویتی, یادگیری تفاوت زمانی, یادگیری تقویتی عمیق میباشد.
به یادگیری نحوه نگاشت یک وضعیت به یک اقدام به طوری که یک سیگنال پاداش عددی را حداکثر نماید یادگیری تقویتی میگویند». در این کتاب، نویسنده یادگیری از تعامل با محیط را از دیدگاه محاسباتی بررسی میکند و بهجای آنکه به طور مستقیم از نظر تئوری یادگیری انسان یا موجودات را تحلیل نماید به دنبال یافتن شرایط یادگیری ایدهآل است. همچنین در کتابی که می خوانید اثربخشی روشهای یادگیری مختلف چون «یادگیری تقویتی»، مورد ارزیابی قرار میگیرد.
این کتاب از اینجا دانلود کنید:
https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
در این مقاله مدلهای استدلالی نسل اول خود، DeepSeek-R1-Zero و DeepSeek-R1 را معرفی میکند. DeepSeek-R1-Zero، مدلی که از طریق یادگیری تقویتی در مقیاس بزرگ (RL) بدون تنظیم دقیق نظارت شده (SFT) به عنوان یک مرحله مقدماتی آموزش دیده است، قابلیت های استدلال قابل توجهی را نشان می دهد. از طریق RL، DeepSeek-R1-Zero به طور طبیعی با رفتارهای استدلالی قدرتمند و جذاب متعدد ظاهر می شود. با این حال، با چالش هایی مانند خوانایی ضعیف و ترکیب زبان مواجه می شود. برای رسیدگی به این مسائل و افزایش بیشتر عملکرد استدلال، DeepSeek-R1 را معرفی میکند که شامل آموزش چند مرحلهای و دادههای شروع سرد قبل از RL است. DeepSeek-R1 به عملکردی قابل مقایسه با OpenAI-o1-1217 در وظایف استدلال دست می یابد. برای حمایت از جامعه تحقیقاتی، DeepSeek-R1-Zero، DeepSeek-R1 و شش مدل متراکم (1.5B، 7B، 8B، 14B، 32B، 70B) منبع باز که از DeepSeek-R1 بر اساس Qwen و Llama تقطیر شده اند.
این مقاله از لینک زیر قابل مشاهده است:
https://arxiv.org/abs/2501.12948
در لینک آپارات این مقاله را به صورت دقیق بررسی کرده است:
https://www.aparat.com/v/jzy30c8