知识蒸馏(Knowledge Distillation)正是基于这样的思想:把一个大的神经网络(称为教师网络)的知识灌输到一个小的神经网络(称为学生网络)当中,让小的网络学习到大的网络的表征。这个想法最早在90年代就出现了,而深度学习革命开启以来,Hinton et al.(2015)正式提出了知识蒸馏的概念。
1.Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. In NIPS Deep Learning and Representation Learning Workshop.