Xueying Shi, Qi Dou, Cheng Xue, Jing Qin, Hao Chen, Pheng-Ann Heng
港中文王平安组是真的屌啊
整体结构包含两个部分,1、样本选择。2、样本聚合
设计了一种双向评估标准,用来选择informative的样本和具有representative的样本。具有高互补性
为了从这些有价值但模棱两可的样本中获取更丰富、更易区分的特征,作者设计了一种在像素空间中增加类内图像的聚合策略(data augmentation)
在ISIC2017上测试达到了SOTA
作者使用ResNet101(M)作为模型,初始条件为,表示标记的初始训练集,表示oracle。
informative的数据是通过训练的模型预测,选择low prediction con dences得到的,原因:这些数据都在desicion boundary附近,所以被认为不确定样本。
representative的数据是通过结合PCA特征和hashing方法得到
作者认为,置信度越低那么这个样本就包含越多的信息。所以有,,N是所有unlabel的样本,以上便选出了个最不确定的样本。
考虑到样本的diversity问题,作者添加了不同的形状。用PCA和LSH得到集合,处理过程如下,K=10是LSH中的buckets的个数,,γ是个参数。
最后,因为PCA和CNN是不同的操作不同的方法,因此最终获得的不确定样本为两者的交集,进而再更新训练样本许多工作都在寻找sample,但是忽略了对已经找到的样本进行增强利用,以便产生更多的可辨识的特征。作者认为如果仅仅用选择出来的样本添加到训练集中,会引起over-fitting.原因:因为更新后的决策边界将是curly,以适应模糊边界的图像。因此作者提出AS:
聚集pixel space里面同样class的图像,成为2*2的图,如图2.这样的concanate提供了更加丰富的特征同时增加了鲁棒性,减少了intra class的偏移。将aggregate的图像resize到原始大小,label就是这几个同样class的图的label。使用了CNN最后fc层的输出+t-SNE,能够降维到pixel space