SR竞赛准备

mac2024-05-09  46

2019/11/3

没想到都到了做比赛的第五天了,今天开组会仔细讨论了一下超分的算法,有一个好的想法是基于UNET的,在这里可以先记录一下, 基本上理清楚了思路之后我想还是考虑一下训练应该怎么设计。

2019/11/2:

考虑了半天使用lmdb格式真的不利用现在的数据加载,暂时放弃,想可视化一下网络,发现batch-size=1都超出了内存,仔细看了一下发现网络太复杂了,图片太大,对应的参数太多,源程序训练都是把大图片切成小图片训练的,阅读论文DBPN,主要弄清楚Back Projection的原理, 查看了一下89年的论文,Improving Resolution by Image Registration,大概懂了反向Back Projection 方法 关于DBPN的加强算法D-DBPN感觉DenseNet网络真的很适用于高分辨图像,不错的idea 使用的是adam算法,lr设置为1e-4,这样就意味着调参会很随意,后面肯定要给他改写成Range算法

查看了一下这篇论文用的数据集DIV2K数据集,其实总共只有1000张图片,用于训练图片只有800张,每张图片大小197601080,做4倍超分的话每张是490270,做32*32切割,一张图片可以被切割成130张,即所有大图片训练一遍是104000张图片,由于每次batch-size为20,总过训练了 1 0 6 10^6 106次,这样的话相当于把整个大图片数据集跑了200 = ( 1 0 6 10^6 106*20)/(104000)遍左右,

比赛中的视频,中间很多场景是重复的,所以理论上就是3秒就那么几个场景,所以我们根本不需要训练很多遍,只要训练几遍就行了,大部分都是重复训练和epoch增加是一个道理,一张测试集的大图片可以切成288小图片,假设一个视频平均有5帧是关键帧那训练总共就是说训练700.5.288为一轮,就是走一遍全体数据集,相当于正常情况走了25次数据集 基本上理解了为什么要用视频超分了,就是超分加上检测关键帧

研究整体网络结构: 首先图片送入网络做一层简单的cnn

2019/10/31:

跑第一个代码DBPN 做完dataset部分,但是是对文件的直接加载,所以训练速度比较慢,可以使用lmdb格式进行改写 多线程对数据集视频整理成图片 ans:对SR问题怎么进行数据增强 跑代码的过程中发现:不像原版DenseNets,我们避免使用dropout和batch norm

2019/10/30 :调研文献:

最新回复(0)