Paper Reading: MaskGIT: Masked Generative Image Transformer
Conflicts
Transformer拿来作为自回归模型在预测序列信息时是没有太大问题的,但是图像token化后也并不能完全被当做序列信息来看待,那么一个token一个token地迭代太慢了,需要加速。这篇文章就给出了一个simple的加速策略:一批一批地生成。
Tricks
示意图如下
每次生成一批的话则有两个关键的问题
- 分几步迭代?每一步迭代多少个?
- 根据Transformer的性质每次都会出所有token,那么保留哪些呢?
这篇文章的回答是:
- 分T步,每一步的迭代个数可以用一个所谓的Mask Scheduling Function $\gamma (\frac{t}{T})$来实现
- 当我们采样好每个预测的token之后,它被选择保留下来的”confidence” score直接沿用他被预测的概率,选择那些”confidence” score高的token 保留下来固定,剩下的继续迭代。
paper链接link
原文链接:Paper Reading: MaskGIT: Masked Generative Image Transformer
Skirrey's Blog 版权所有,转载请注明出处。
还没有任何评论,你来说两句吧!