阅读笔记-ShowandTell

mac2026-06-20 11

摘要相关工作提出的模型3.1 基于LSTM的句子生成器

摘要

提出了一个生成模型，cv+nlp，输入是图片，输出是句子

衡量指标

BLEU-1SBU

目标函数如下

$\theta^{\star}=\arg \max _{\theta} \sum_{(I, S)} \log p(S | I ; \theta)$

其中$ \theta $是模型参数，$ I$是图片，是正确的转义结果，就是最后的句子，长度可以不固定，所以比较常见的做法是使用链式法则对上式重写：

$\log p(S | I)=\sum_{t=0}^{N} \log p\left(S_{t} | I, S_{0}, \ldots, S_{t-1}\right)$

为了方便起见这里去掉了依赖参数 $\theta$

训练结果，每一个样本是一个 $(S, I)$ 即图片-文本对，在整个训练集上对上述loss的和进行优化，踩踏随机梯度下降的方式

只在第一次的时候，输入图片信息

最新回复(0)