Blog Series About

Back

Tags: #reinforcement learning

June 5, 2026

CS336 - Assignment 5: Alignment & Reasoning RL

CS336 Assignment 5: align language models with supervised fine-tuning and reinforcement learning (expert iteration, GRPO) to improve math reasoning.

3 min read en