目录 卷积网络调参
调整学习率选择不同的激活函数网络初始化批归一化数据增强
卷积神经网络调参
α是对每一个神经元结构来说的.所以对于稀疏的问题来说就更明显了,很难学习到稀疏问题上的信息,然后将学习率α调小,但是又对于稀疏问题来说,还没有学习到足够的信息,使得下降梯度不够大,无法得到收敛 变种 手动设置 各自的优缺点 当x<0时,输出一直为0进入死循环. 单层原因:(在最后是损失函数计算中,这个参数是可以直接用到的,梯度可以直接计算在这个参数上) 多层原因:链式法则,第一层的输入为0,导致第二层的输入也为0, 导致后面的全为0
在底层表现不错,越往高层,越接近于0,梯度的计算和激活值是很有关系的,激活值接近于0的原因在于方差太小了 在方差太大的情况下,表现的依然不好,在于tanh的函数图像的分布
W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in)
改进 批归一化:为了使得每一层的激活值比较统一,在每一层得到激活值之后,做一个归一化的处理