提出了一个生成模型,cv+nlp,输入是图片,输出是句子
衡量指标
BLEU-1SBU本文的工作用了一个更厉害的RNN,然后直接把图片输入到RNN里面,
目标函数如下
m a t h θ ⋆ = arg max θ ∑ ( I , S ) log p ( S ∣ I ; θ ) math \theta^{\star}=\arg \max _{\theta} \sum_{(I, S)} \log p(S | I ; \theta) mathθ⋆=argθmax(I,S)∑logp(S∣I;θ)
其中$ \theta 是 模 型 参 数 , 是模型参数, 是模型参数,I$是图片,是正确的转义结果,就是最后的句子,长度可以不固定,所以比较常见的做法是使用链式法则对上式重写:
m a t h log p ( S ∣ I ) = ∑ t = 0 N log p ( S t ∣ I , S 0 , … , S t − 1 ) math \log p(S | I)=\sum_{t=0}^{N} \log p\left(S_{t} | I, S_{0}, \ldots, S_{t-1}\right) mathlogp(S∣I)=t=0∑Nlogp(St∣I,S0,…,St−1)
为了方便起见这里去掉了依赖参数 θ \theta θ
训练结果,每一个样本是一个 ( S , I ) (S, I ) (S,I)即图片-文本对,在整个训练集上对上述loss的和进行优化,踩踏随机梯度下降的方式
只在第一次的时候,输入图片信息
