Paper Reading Note
URL: https://arxiv.org/pdf/1711.08200.pdf
该文章提出了一种基于densenet改进得到的三维卷积网络结构(Temporal 3D ConvNets),同时提出了一种迁移学习方法使三维卷积网络能够得到更好的初始化,所提出的方法在三个主要的动作识别数据集上取得了SOTA的结果。
HMDB51, UCF101, 和Kinetics Datasets三个人体动作识别数据集。其中Kinetics包含400的动作类别,难度非常大,三个数据集的具体情况见下表:
网络结构探索实验,可以看到T3D的网络结构相比于原始的densenet还是多了很多的参数,据作者所说大概是会提升1.3倍
网络精度对比,作者为了公平对比实现了基于resnet、Inception、densenet的三维网络结构
输入图片尺寸大小对精度的影响,这个实验符合预期,我在做实验过程中也试过增加输入图片的尺寸能够明显涨点
采样帧率对实验结果的影响, 采样率为2时有最佳结果,也就是说并不是每帧图片都输入能够取得最佳结果,这种情况的可能原因是采样一定程度降低冗余的无关帧信息的影响?
kinetics数据集上的结果
-UCF101和HMDB51数据集上的结果,都是取得了SOTA的结果
这篇文章的思路简单清晰,创新点也非常明确,就是基于densenet进行扩展并提出TTL层得到了一个性能优良的三维卷积网络结构,同时将预训练过的二维网络的知识迁移给三维网络,能够一定程度上使三维网络初始化在比较好的参数空间中,可以在动作识别实验中进行借鉴,但是这种方法对于参数量的增加还需要考虑进一步优化。
