吴翼 · 42章经

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

2025年4月5日 · 1:12:49

清华叉院助理教授吴翼向曲凯拆解强化学习（RL）与大模型的融合，从RL基础原理讲到InstructGPT、RLHF，再到O1的“慢思考”范式。他强调DeepSeek证明了RL在推理上的可行性，而Anthropic在代码和交互体验上独树一帜。吴翼认为未来RL会有泛化、代码、Agent三大分支，并指出基建远大于算法，其团队开源的AReaL框架在7B模型上达到了AIME24 61.9的SOTA分数。

1 个单集