Paper Reading: Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
Confliction 这篇文章先提出了当前文本生成图像任务的主要缺点 缺乏控制能力 没有考虑人的感知 分辨率不高 于是作者新定义了任务,那就是加入segmentation map,于是模型的输入是文本和segmentation map,输出是图像。 Model Design 这是基于Transformer的方法,也是纳入了segmentation map后比较trivial的网络设计,作者提出了一个很有趣的idea,那就是作者认为Transformer再强最终生成还是有VQ-VAE去做,当前图像质量的生成瓶颈在VQ-VAE上,于是作者除了在新增输入segmentation map上在做手脚之外,还在最终的VQ-VAE上引入了一些专门用来优化人脸和物体的loss,作者将segmentation map的VQ-VAE 叫做VQ-SEG,图像的VQ-VAE叫做VQ-IMG。 使用VQ-SEG来分割,输入和输出的channel数=panoptic segmentation类别数+human segmentation类别数 + face segmentation类别数 + 1, 额外的1是一个分割不同类别和实例的边缘图。 联合VQ-SEG输出的分割信息,训练VQ-IMG时有如下的人脸loss,其中c表征从数据集中crop出的人脸。 $$\mathcal{L}_{\text {Face }}=\sum_{k} \sum_{l} \alpha_{f}^{l}\left\|\mathrm{FE}^{l}\left(\hat{c}_{f}^{k}\right)-\mathrm{FE}^{l}\left(c_{f}^{k}\right)\right\|$$ 训练VQ-SEG是人脸会糊掉,通过一个监督信号去加强 $$\mathcal{L}_{\mathrm{WBCE}}=\alpha_{\text {cat }} \operatorname{BCE}(s, \hat{s})$$ VQ-IMG加入crop出物体的监督信号 \begin{equation} \mathcal{L}_{\mathrm{Obj}}=\sum_{k} \sum_{l} \alpha_{o}^{l}\left\|\operatorname{VGG}^{l}\left(\hat{c}_{o}^{k}\right)-\operatorname{VGG}^{l}\left(c_{o}^{k}\right)\right\| \end{equation} 之后就喂入了Transformer,学习三者的联合分布。在这一步中,使用了所谓的Classifier-free guidance,也就是在训练时随机地drop一些text token,在inference计算下一个segmentation map token或者image token,计算logits score时有一个conditional和一个unconditional的模模型共通来inference,由如下的公式合成起来,其中T代表Transformer。 \begin{equation} \begin{gathered} \operatorname{logits}_{\text {cond }}=T\left(t_{y}, t_{z} \mid t_{x}\right) \\ \text { logits }_{\text {uncond }}=T\left(t_{y}, t_{z} \mid \emptyset\right) \\ \text { logits }_{c f}=\text { logits }_{\text {uncond }}+\alpha_{c} \cdot\left(\text { logits }_{\text {cond }}-\text { logits }_{\text {uncond }}\right) \end{gathered} \end{equation} 实验 在MS-COCO数据集的一个包含30k图像的子集中FID的对比 \begin{equation} \begin{array}{l|ccc|ccc} \hline \text { Model } & \text { FID } \downarrow & \begin{array}{c} \text { FID } \downarrow \\ \text { (filt.) } \end{array} & \begin{array}{l} \text { Image } \\ \text { quality } \end{array} & \begin{array}{c} \text { Photo- realism alignment } \\ \text { Text } \end{array} \\ \hline \text { AttnGAN} […]