Paper Reading: MaskGIT: Masked Generative Image Transformer

正文索引 [隐藏]

Conflicts

Transformer拿来作为自回归模型在预测序列信息时是没有太大问题的,但是图像token化后也并不能完全被当做序列信息来看待,那么一个token一个token地迭代太慢了,需要加速。这篇文章就给出了一个simple的加速策略:一批一批地生成。

Tricks

示意图如下

每次生成一批的话则有两个关键的问题

  1. 分几步迭代?每一步迭代多少个?
  2. 根据Transformer的性质每次都会出所有token,那么保留哪些呢?

这篇文章的回答是:

  1. 分T步,每一步的迭代个数可以用一个所谓的Mask Scheduling Function $\gamma (\frac{t}{T})$来实现
  2. 当我们采样好每个预测的token之后,它被选择保留下来的”confidence” score直接沿用他被预测的概率,选择那些”confidence” score高的token 保留下来固定,剩下的继续迭代。

 

paper链接link