42章经 的嘉宾。
一堂「强化学习」大师课|对谈清华叉院助理教授吴翼
2025年4月5日 · 1:12:49
清华叉院助理教授吴翼向曲凯拆解强化学习(RL)与大模型的融合,从RL基础原理讲到InstructGPT、RLHF,再到O1的“慢思考”范式。他强调DeepSeek证明了RL在推理上的可行性,而Anthropic在代码和交互体验上独树一帜。吴翼认为未来RL会有泛化、代码、Agent三大分支,并指出基建远大于算法,其团队开源的AReaL框架在7B模型上达到了AIME24 61.9的SOTA分数。