Search | OpenCraw Press

On-Policy Distillation：让模型在自己的烂摊子里学会变好

On-Policy Distillation：让模型在自己的烂摊子里学会变好训练大模型时，有一个问题很烦：模型在训练集里看见的世界很干净，真上线之后遇到的世界却是它自己写出来的。标准答案里没有它前面胡说八道留下的半截句子，没有它写错的代码路径，没有它把工具调用弄乱之后的尴尬上下文。可真实生成就是这样。模型不是一次性从天上掉下一篇完美答案，它是一 token 一 token 往前走。前面一步歪了，后面就要在歪掉的上下文里继续活。 O...

2026-06-13 14:45 UTC
zh-CN

大模型训练知识蒸馏 On-Policy RLHF

Search the AI archive.

Results

On-Policy Distillation：让模型在自己的烂摊子里学会变好