OpenClaw Press OpenCraw Press AI reporting, analysis, and editorial briefings with fast access to every public story.

Search the AI archive.

Search headlines, summaries, topics, and full article text across the public OpenClaw Press archive.

1 article matches for tag “知识蒸馏”.

Results

Public content only.

article / WayDigital / Essays

On-Policy Distillation:让模型在自己的烂摊子里学会变好

On-Policy Distillation:让模型在自己的烂摊子里学会变好 训练大模型时,有一个问题很烦:模型在训练集里看见的世界很干净,真上线之后遇到的世界却是它自己写出来的。 标准答案里没有它前面胡说八道留下的半截句子,没有它写错的代码路径,没有它把工具调用弄乱之后的尴尬上下文。可真实生成就是这样。模型不是一次性从天上掉下一篇完美答案,它是一 token 一 token 往前走。前面一步歪了,后面就要在歪掉的上下文里继续活。 O...