参考文献格式:Lecun Y , Bengio Y , Hinton G . Deep learning.[J]. Nature, 2015, 521(7553):436. 六篇综述文章 最近提出了对之前自己的反向传播算法的批判;认为反向传播算法不符合大脑识别机制,从而提出了胶囊网络(相关链接)
最近提出了对自己以前基于统计学的深度学习算法的质疑,提出了其中的种种困难,从而提出了基于能量谱表示的学习算法。之前基于统计学的方法的学习难点,学习视频数据,难以预测视频下一秒会发生什么?看3D的表面时,难以预测他的背面是什么?针对这些缺陷,提出了基于能量学习的学习算法
GAN的提出者,对注意力机制的研究
听个节目
dropout缓解梯度消失和爆炸 batchNormalization:保持输出符合某种分布,缓解梯度消失和爆炸
神经网络天然的就适合分布式特征表示,特别是在NLP方向
深度学习利用表示(特征)学习,自动完成特征工程的任务 浅层 前中层 中层 后中层 后层 随着层数的叠加,抽取的特征越高级
监督学习 经过试验,随机梯度下降法比梯度下降法节省成百上千倍的时间,而且效果一样好,甚至更好一点。 梯度由反向传播求得,使用反向传播需要使用光滑函数,不光滑的函数,比如离散的函数,目前用反向传播做不了,那么我们就不用神经网络可以吗?当热是可以的!
离散而不光滑的目标函数,可以采取机器学习中方法,集合深度学习,加深算法,如周志华团队的深度森林模型,集合决策树,随机森林。 但是有些缺点,一个就是无法用GPU加速,需要进行新的芯片架构。
激活函数本质上就是一种映射 映射又是为了分布和范围 即映射在理想的分布和范围 强调一点就是没有那个激活函数高级的说法,只有哪个激活函数更适合。
有饱和问题 有饱和问题 Maxout可以选取最优的激活函数,缺点就是训练参数过多 1.信号的局部连接:降低参数量 2.共享权重:进一步降低参数量(卷积核扫描的过程,权重就那么几个) 3.降(下)采样:再进一步降低参数量,增加泛化性
《神经网络与机器学习》,里面有从信号论的角度进行了解释这些。有空买一本。核心就是自适应的滤波器。特别适合通信专业。
滤波器就相当于特征工程
没有什么是LSTM解决不了的,如果解决不了,就用双向LSTM 无监督学习进一步分类: 聚类问题和关联问题 DeepMind OpenAI 三个机构:商业界:DeepMind OpenAI 学界:伯克利 周志华学生:yuyiyang教授 萨顿的Introduction to reinforcement learning