因为本文提出一种early-stop teacher方法可以有效地避免该问题即:
使用early-stop teacher进行蒸馏接近收敛时要提前停止知识蒸馏(这个论文中后续没有细说了)有趣的发现:
红色是training from scratch,蓝色是full KD,我们可以看到网络训练前期,KD大大帮助了训练,但是后面会开始影响精度 逐步的进行蒸馏可能依赖于网络结构,如在本文实验的Res18不work,和之前的论文又悖训练过程:开始训练一个teacher,然后KD得到s1,然后s1KD得到s2,以此循环最后得到sk,最最后可以把他们ensemble起来得到一个最终模型
但是本文发现在Res18不work,逐步KD得到的还不如train from scratch,在WRN16-2上是work的。但是最终ensemble的模型还不如ensemble一些train from scratch的模型,因为KD得到的模型太“像”了
teacher太强,student的容量和teacher差距太远,导致根本都无法mimic到那个空间去,KD loss随着teacher变强升高,反而容易干扰正常的学习。引入Early Stop的策略后情况有所改善了
