article / WayDigital / Essays
On-Policy Distillation:让模型在自己的烂摊子里学会变好
On-Policy Distillation:让模型在自己的烂摊子里学会变好 训练大模型时,有一个问题很烦:模型在训练集里看见的世界很干净,真上线之后遇到的世界却是它自己写出来的。 标准答案里没有它前面胡说八道留下的半截句子,没有它写错的代码路径,没有它把工具调用弄乱之后的尴尬上下文。可真实生成就是这样。模型不是一次性从天上掉下一篇完美答案,它是一 token 一 token 往前走。前面一步歪了,后面就要在歪掉的上下文里继续活。 O...