Generative Model - Skirrey's Blog

Skirrey

2 years前

Paper Reading: Analytic-DPM

🚧 Background 在之前的DDPM, DDIM的模型中, Backward Progress的方差都是固定的或者是有规律的数字, 本身没有被考虑进动态的Backward Progress中, 这篇文章用很深厚的功力告诉我们仅仅依赖于和之前一样的KL散度的Loss设计, 我们是可以推出Backward Progress的分析上的最优的条件期望和方差的, 接下来这篇博客将会直接进行一个论文的抄. Basic Knowledge 首先我们关注DDIM文章中对扩散模型的一个扩充的形式 $$ \begin{aligned} &q_{\lambda}\left(\boldsymbol{x}_{1: N} \mid \boldsymbol{x}_{0}\right)=q_{\lambda}\left(\boldsymbol{x}_{N} \mid \boldsymbol{x}_{0}\right) \prod_{n=2}^{N} q_{\lambda}\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{x}_{n}, \boldsymbol{x}_{0}\right) \\ &q_{\lambda}\left(\boldsymbol{x}_{N} \mid \boldsymbol{x}_{0}\right)=\mathcal{N}\left(\boldsymbol{x}_{N} \mid \sqrt{\bar{\alpha}} \boldsymbol{x}_{0}, \bar{\beta}_{N} \boldsymbol{I}\right) \\ &q_{\lambda}\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{x}_{n}, \boldsymbol{x}_{0}\right)=\mathcal{N}\left(\boldsymbol{x}_{n-1} \mid \tilde{\boldsymbol{\mu}}_{n}\left(\boldsymbol{x}_{n}, \boldsymbol{x}_{0}\right), \lambda_{n}^{2} \boldsymbol{I}\right) \\ &\tilde{\boldsymbol{\mu}}_{n}\left(\boldsymbol{x}_{n}, \boldsymbol{x}_{0}\right)=\sqrt{\bar{\alpha}_{n-1}} \boldsymbol{x}_{0}+\sqrt{\bar{\beta}_{n-1}-\lambda_{n}^{2}} \cdot \frac{\boldsymbol{x}_{n}-\sqrt{\bar{\alpha}_{n}} \boldsymbol{x}_{0}}{\sqrt{\bar{\beta}_{n}}} \end{aligned} $$ 并且上述形式是基于保证如下的分布形式所设计出来的 $$ q_{\lambda}\left(\boldsymbol{x}_{n} \mid \boldsymbol{x}_{0}\right)=\mathcal{N}\left(\boldsymbol{x}_{n} \mid \sqrt{\bar{\alpha}_{n}} \boldsymbol{x}_{0}, \bar{\beta}_{n} \boldsymbol{I}\right) $$ 其中$ \bar{\alpha}_{n}:=\prod_{i=1}^{n} \alpha_{i}$, 并且$\bar{\beta}_{n}:=1-\bar{\alpha}_{n}$. 熟悉相关数学形式的同学也很容易知道DDPM是上述形式中$\lambda_{n}^{2}=\tilde{\beta}_{n}$, $\tilde{\beta}_{n}:=\frac{\bar{\beta}_{n-1}}{\bar{\beta}_{n}} \beta_{n}$的特例, 此时Forward Progress可以是马尔科夫的. 而当$\lambda_{n}^{2}=0$时, 就是DDIM模型虽然正向过程未必是马尔科夫过程了, 但我们依旧假设我们的Reverse Progress是Markov的(或者说我们假设我们能够拿到一个不准的$x_0$), 我们建了一个神经网络去学习这样的Reverse Progress, 从终态的标准高斯分布$p\left(\boldsymbol{x}_{N}\right)=\mathcal{N}\left(\boldsymbol{x}_{N} \mid \mathbf{0}, \boldsymbol{I}\right)$ 出发: $$p\left(\boldsymbol{x}_{0: N}\right)=p\left(\boldsymbol{x}_{N}\right) \prod_{n=1}^{N} p\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{x}_{n}\right), \quad p\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{x}_{n}\right)=\mathcal{N}\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{\mu}_{n}\left(\boldsymbol{x}_{n}\right), \sigma_{n}^{2} \boldsymbol{I}\right)$$ 在之前的理论中, 我们仅考虑神经网络去拟合均值, 用一个预测噪声的网络, 或者说是Score-based model $\boldsymbol{s}_n(\boldsymbol{x}_n)$来表示这样的均值: $$ \boldsymbol{\mu}_{n}\left(\boldsymbol{x}_{n}\right)=\tilde{\boldsymbol{\mu}}_{n}\left(\boldsymbol{x}_{n}, \frac{1}{\sqrt{\bar{\alpha}_{n}}}\left(\boldsymbol{x}_{n}+\bar{\beta}_{n} \boldsymbol{s}_{n}\left(\boldsymbol{x}_{n}\right)\right)\right) $$ 训练的Loss由ELBo表示, 经过简单的推到有如下的形式: $$ L_{\mathrm{vb}}=\mathbb{E}_{q}\left[-\log p\left(\boldsymbol{x}_{0} \mid \boldsymbol{x}_{1}\right)+\sum_{n=2}^{N} D_{\mathrm{KL}}\left(q\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{x}_{0}, \boldsymbol{x}_{n}\right) \| p\left(\boldsymbol{x}_{n-1} \mid \boldsymbol{x}_{n}\right)\right)+D_{\mathrm{KL}}\left(q\left(\boldsymbol{x}_{N} \mid \boldsymbol{x}_{0}\right) \| p\left(\boldsymbol{x}_{N}\right)\right)\right] $$ 而Yang Song等人实际上是直接对比的Forward Progress和Reverse Progress联合分布的KL散度, 事实上这两者是等价的: $$ \min _{\left\{\boldsymbol{\mu}_{n}, \sigma_{n}^{2}\right\}_{n=1}^{N}} L_{\mathrm{vb}} \Leftrightarrow \min _{\left\{\boldsymbol{\mu}_{n}, \sigma_{n}^{2}\right\}_{n=1}^{N}} D_{\mathrm{KL}}\left(q\left(\boldsymbol{x}_{0: N}\right) \| […]

Generative Model, Machine Learning Theory, Paper Reading

82 0 2

Skirrey

2 years前

Diffusion Model & Conditional Diffusion Model

UPD 4.24.2022 最近朱军老师实验室Fan Bao等人进一步推进了理论结果,在优化时考虑了方差并给出了分析的结果 Background 其实diffusion model也在很久之前就出现了，我在Generative Model Roadmap这篇文章中也有简单的介绍，最近又被大家翻出来，这篇文章我将介绍一下Diffusion Model的数学形式以及最近出现的Conditional Diffusion Model。其中的相当一部分内容抄自Lilian Weng的一篇博客，其中的一些计算也加入了我自己的理解。 Unconditional Diffusion Model Diffusion Model 事实上是一个正向的Markov过程，我们将从严格定义的正向过程出发，展示我们如何将一个数据集映射到标准高斯分布，以及推导出从标准高斯分布映射回原始数据集的逆向过程，当然其中有不可计算的东西，当然由万能的神经网络来完成这最后一块拼图。 Forward process 我们有一个随机变量$\mathbf{x}_{0} \sim q(\mathbf{x_o})$来表征一个数据集所代表的连续化的分布，我们将x考虑为离散的Markov过程，并且有这样的条件分布，这些条件分布的参数将由$\beta_t$完全表示 $$ q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{1-\beta_{t}} \mathbf{x}_{t-1}, \beta_{t} \mathbf{I}\right) \quad q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)=\prod_{t=1}^{T} q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right) $$ 这么明显的服从高斯分布的独立增量可以让我们轻易地构造出一个布朗运动，并将离散的随机过程$\frac{x_t}{\sqrt{\bar{\alpha}_{t}}}$嵌入到该布朗运动中。并且由于高斯分布的特性，我们可以直接从$x_0$得到$x_t$的分布，其中$\alpha_{t}:=1-\beta_{t}$，$\bar{\alpha}_{t}:=\prod_{s=0}^{t} \alpha_{s}$ \begin{equation} q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right) \end{equation} Reverse Progress 首先我们观察正向过程的最后一个公式，可以看出其均值是递减的，方差是递增的，很容易选择合适的条件让$q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)$变成标准高斯分布，进而对$x_0$的积分变得Trivial，也就是$q(x_t)$也是标准高斯分布。注意到当$\beta_t$足够小时，$q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$也是可以被当做高斯分布的，但是我们很难轻松地得到显示表达式，因为这需要我们对$x_0$做积分，因此我们考虑去学习一个模型$p_\theta$来去近似这样的Reverse过程的条件分布，进而我们可以从标准高斯分布来生成原始数据啦。 \begin{equation} p_{\theta}\left(\mathbf{x}_{0: T}\right)=p\left(\mathbf{x}_{T}\right) \prod_{t=1}^{T} p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right) \quad p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right), \mathbf{\Sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)\right) \end{equation} 注意到我们之前说了$x_t$是可以嵌入到一个布朗运动的，熟悉布朗运动的读者可以轻松地根据布朗运动关于两端中间某一时刻的条件分布仍然是高斯分布可以轻松得到（当然记不住结论的话也可以在明确了是高斯分布之后根据Lilian Weng的方法配方得到均值和方差） \begin{equation} \begin{aligned} \tilde{\mu}_{t}\left(x_{t}, x_{0}\right) &:=\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_{t}}{1-\bar{\alpha}_{t}} x_{0}+\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}} x_{t} \\ \tilde{\beta}_{t} &:=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \beta_{t} \\ q\left(x_{t-1} \mid x_{t}, x_{0}\right) &=\mathcal{N}\left(x_{t-1} ; \tilde{\mu}\left(x_{t}, x_{0}\right), \tilde{\beta}_{t} \mathbf{I}\right) \end{aligned} \end{equation} 又注意到我们可以设从$x_o$生成$x_t$的增量对应的随机变量为$z_t$，进而消掉$x_o$，我们的均值变为 \begin{equation} \begin{aligned} \tilde{\boldsymbol{\mu}}_{t} \left(x_{t}, x_{0}\right) &=\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}} \mathbf{x}_{t}+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_{t}}{1-\bar{\alpha}_{t}} \frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \mathbf{z}_{t}\right) \\ &=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathrm{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \mathbb{z}_{t}\right) \end{aligned} \end{equation} 之后就是关于训练的Loss了，由于我们无法直接优化log likelihood，我们可以抄一下VAE的变分下界， \begin{equation} \begin{aligned} -\log p_{\theta}\left(\mathbf{x}_{0}\right) & \leq-\log p_{\theta}\left(\mathbf{x}_{0}\right)+D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)\right) \\ &=-\log p_{\theta}\left(\mathbf{x}_{0}\right)+\mathbb{E}_{\mathbf{x}_{1: T} \sim q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid […]

Generative Model

285 0 3

Skirrey

2 years前

Paper Reading: MaskGIT: Masked Generative Image Transformer

Conflicts Transformer拿来作为自回归模型在预测序列信息时是没有太大问题的，但是图像token化后也并不能完全被当做序列信息来看待，那么一个token一个token地迭代太慢了，需要加速。这篇文章就给出了一个simple的加速策略：一批一批地生成。 Tricks 示意图如下每次生成一批的话则有两个关键的问题分几步迭代？每一步迭代多少个？根据Transformer的性质每次都会出所有token，那么保留哪些呢？这篇文章的回答是：分T步，每一步的迭代个数可以用一个所谓的Mask Scheduling Function $\gamma (\frac{t}{T})$来实现当我们采样好每个预测的token之后，它被选择保留下来的”confidence” score直接沿用他被预测的概率，选择那些”confidence” score高的token 保留下来固定，剩下的继续迭代。 paper链接link

Generative Model, Paper Reading

36 0 2

Skirrey

2 years前

Paper Reading: Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

Confliction 这篇文章先提出了当前文本生成图像任务的主要缺点缺乏控制能力没有考虑人的感知分辨率不高于是作者新定义了任务，那就是加入segmentation map，于是模型的输入是文本和segmentation map，输出是图像。 Model Design 这是基于Transformer的方法，也是纳入了segmentation map后比较trivial的网络设计，作者提出了一个很有趣的idea，那就是作者认为Transformer再强最终生成还是有VQ-VAE去做，当前图像质量的生成瓶颈在VQ-VAE上，于是作者除了在新增输入segmentation map上在做手脚之外，还在最终的VQ-VAE上引入了一些专门用来优化人脸和物体的loss，作者将segmentation map的VQ-VAE 叫做VQ-SEG，图像的VQ-VAE叫做VQ-IMG。使用VQ-SEG来分割，输入和输出的channel数=panoptic segmentation类别数+human segmentation类别数 + face segmentation类别数 + 1, 额外的1是一个分割不同类别和实例的边缘图。联合VQ-SEG输出的分割信息，训练VQ-IMG时有如下的人脸loss，其中c表征从数据集中crop出的人脸。 $$\mathcal{L}_{\text {Face }}=\sum_{k} \sum_{l} \alpha_{f}^{l}\left\|\mathrm{FE}^{l}\left(\hat{c}_{f}^{k}\right)-\mathrm{FE}^{l}\left(c_{f}^{k}\right)\right\|$$ 训练VQ-SEG是人脸会糊掉，通过一个监督信号去加强 $$\mathcal{L}_{\mathrm{WBCE}}=\alpha_{\text {cat }} \operatorname{BCE}(s, \hat{s})$$ VQ-IMG加入crop出物体的监督信号 \begin{equation} \mathcal{L}_{\mathrm{Obj}}=\sum_{k} \sum_{l} \alpha_{o}^{l}\left\|\operatorname{VGG}^{l}\left(\hat{c}_{o}^{k}\right)-\operatorname{VGG}^{l}\left(c_{o}^{k}\right)\right\| \end{equation} 之后就喂入了Transformer，学习三者的联合分布。在这一步中，使用了所谓的Classifier-free guidance，也就是在训练时随机地drop一些text token，在inference计算下一个segmentation map token或者image token，计算logits score时有一个conditional和一个unconditional的模模型共通来inference，由如下的公式合成起来，其中T代表Transformer。 \begin{equation} \begin{gathered} \operatorname{logits}_{\text {cond }}=T\left(t_{y}, t_{z} \mid t_{x}\right) \\ \text { logits }_{\text {uncond }}=T\left(t_{y}, t_{z} \mid \emptyset\right) \\ \text { logits }_{c f}=\text { logits }_{\text {uncond }}+\alpha_{c} \cdot\left(\text { logits }_{\text {cond }}-\text { logits }_{\text {uncond }}\right) \end{gathered} \end{equation} 实验在MS-COCO数据集的一个包含30k图像的子集中FID的对比 \begin{equation} \begin{array}{l|ccc|ccc} \hline \text { Model } & \text { FID } \downarrow & \begin{array}{c} \text { FID } \downarrow \\ \text { (filt.) } \end{array} & \begin{array}{l} \text { Image } \\ \text { quality } \end{array} & \begin{array}{c} \text { Photo- realism alignment } \\ \text { Text } \end{array} \\ \hline \text { AttnGAN} […]

Generative Model, Paper Reading

67 0 2

Skirrey

2 years前

Generative Model Roadmap

【施工中进度2/6】 Background 随着神经网络的不断发展，现在已经有了各种各样的基于神经网络生成模型，这篇文章将简单介绍一下笔者熟悉的这些nn-based生成模型。 Begin 首先，生成模型的本质是期望从无生成一个想要的domain $\mathbb{D}$下的东西。但是真实需要的$\mathbb{D}$很难去描述，但是我们通常拿不到这个$\mathbb{D}$，我们通常能够拿到一个数据集$X \subset \mathbb{D}$，记$x \in X$为我们数据集中的任一元素，又通常来说$\mathbb{D}$是嵌入到某个高维欧式空间$\mathbb{R}^n$的，那么我们便可以用在$\mathbb{R}^n$上的某个概率分布$P$来描述$\mathbb{D}$。于是$\mathbb{D}$的选择将至关重要，我们不妨设$\mathbb{D}$的Hausdorff维数$\dim_H (\mathbb{D}) = m$，$0 \le m \le n$(直观来说Hausdorff维数就是该集合同构到一个m维空间时是dense的，当然这个描述不严格)。比如最naïve地我们令$m = 0$，更进一步地令$\mathbb{D} = X$，我们得到了一个均匀的离散分布，无需任何计算，我们的生成任务就完成了！恭喜，你已经掌握了生成模型的精髓！这样很美好，但是无法生成$X$之外的数据，如果想要生成$X$之外的数据，我们必然要扩大$\mathbb{D}$的范围。我们提及了概率，必然要建立好概率空间，但是众所周知概率空间是测度空间的特例，其对很多东西，包括距离是没有任何需求的，如果站在这样的角度，那么这个数据集将仅仅表征其自己，我们甚至无法描述其附近的点，因此仅从概率的角度是不能给我们提供任何帮助的。我们需要生成$X$之外但又与之相近的数据，那必然需要一个度量空间，需要有well-defined的距离。等一下，$\mathbb{D}$通常是嵌入到某个高维欧氏空间$\mathbb{R}^n$的，有了这样嵌入到欧氏空间的特征，我们至少可以轻松地去定义一些reasonable的距离，这些我将在介绍模型的时候详细介绍。在此之前，我们不妨去看看统计学习中一个和生成式相关的模型——生成式分类器。由于在监督分类任务中我们是给了$x$和分类标签$y$的，生成式分类器没有直接去求给定$x$后y的后验分布，而是去求一个联合概率分布$p(x,y)$，由于$y$是离散的，因此遍历便能拿到最合适的标签$\hat y$。那么我们如果直接去拟合$p(x)$来表征$\mathbb{D}$，对其空间的一些feature的控制有困难的话，为什么不把它看成是由另个分布经过变换等价过来的呢？如果这个变换是良定义的（比如下面的Flow-based Model部分），那么我们$\mathbb{D}$的很多特征比如$\dim_H (\mathbb{D}) = m$将完全等价于变换前的一个naïve的分布，这样的话理论就相当漂亮！一个小的总结：NN-Based Model 都是去拟合分布$P(x)$，绝大多数是通过一个简单分布通过分布变换的函数得到： $$P(x) = \int_z Q(z)\phi (x | z) \mathrm{d}z \tag{0}\label{generate equation}$$ 其中$z$是某个服从$Q(z)$随机变量。$\phi (x | z) $则是我们神经网络所要拟合的一个函数。 Variational autoencoder(VAE) VAE是一个理论相对漂亮的模型，特别是近几年离散化的VQ-VAE成为了构建离散和连续的桥梁，让Transformer在NLP领域的强大表达能力得以再现到图像等别的领域上。理论 VAE的目的就是使用网络去拟合$\eqref{generate equation}$中的$\phi (x | z) $，我们选取$Q(z)$和$\phi (x | z) $均为高斯分布。 Generative adversarial network(GAN) Flow-based Model Transformer Diffusion Model 对Diffusion Model比较key2point的数学形式的理解我首推Weng, Lilian一篇博客。 Forward Diffusion Progress 我们首先从一个数据集的分布$x_{0} \sim q\left(x_{0}\right)$(这里认为$x_0$是服从数据集分布的一个随机变量)和一个马尔科夫的加噪声过程开始，我们可以一步一步地生成T个随机变量$x_1$一直到$x_T$，其中每一的加噪声过程我们给定方差$\beta_t$,有 $q\left(x_{t} \mid x_{t-1}\right):=\mathcal{N}\left(x_{t} ; \sqrt{1-\beta_{t}} x_{t-1}, \beta_{t} \mathbf{I}\right)$ Ho等人注意到由于无关高斯分布的和依然是高斯分布，很容易推导出t步之后的closed form如下： $\begin{aligned} q\left(x_{t} \mid x_{0}\right) &=\mathcal{N}\left(x_{t} ; \sqrt{\bar{\alpha}_{t}} x_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right) \\ &=\sqrt{\bar{\alpha}_{t}} x_{0}+\epsilon \sqrt{1-\bar{\alpha}_{t}}, \epsilon \sim \mathcal{N}(0, \mathbf{I}) \end{aligned}$ 其中$\alpha_{t}:=1-\beta_{t}$，$\bar{\alpha}_{t}:=\prod_{s=0}^{t} \alpha_{s}$ Reverse Diffusion Progress 我们很容易构造出鞅（Tips，很容易根据该过程生成出一个布朗运动$\frac{x_t}{\sqrt{\bar{\alpha}_{t}}}$，进而由布朗运动生成鞅）来得到给定初始时刻的随机变量值和当前时刻的随机变量值，上一个时刻的随机变量值服从如下的高斯分布（也可以使用贝叶斯公式得到）： \begin{equation} \begin{aligned} \tilde{\mu}_{t}\left(x_{t}, x_{0}\right) &:=\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_{t}}{1-\bar{\alpha}_{t}} x_{0}+\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}} x_{t} \\ \tilde{\beta}_{t} &:=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \beta_{t} \\ q\left(x_{t-1} \mid x_{t}, x_{0}\right) &=\mathcal{N}\left(x_{t-1} ; \tilde{\mu}\left(x_{t}, x_{0}\right), \tilde{\beta}_{t} \mathbf{I}\right) \end{aligned} \end{equation} 这很漂亮，但是由于我们注意到合理地设置各个$\beta_t$和总步骤$T$时，$q(x_T \mid x_0)$近似为高斯分布与$x_0$无关，我们很容易得到$q(x_T)$为标准高斯分布。那么上述的公式虽然很漂亮，考虑到我们的目标是生成模型，上述公式的$x_0$条件能去掉就好了。令人开心的事情是，当$\beta_t$足够小的时候，可以证明我们需要的逆向过程仍然是一个高斯过程！ \begin{equation} \boldsymbol{p}_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right), […]

Computer Vision, Generative Model

109 0 9

Skirrey's Blog

Skirrey

近期文章

近期评论

Paper Reading: Analytic-DPM

Diffusion Model & Conditional Diffusion Model

Paper Reading: MaskGIT: Masked Generative Image Transformer

Paper Reading: Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

Generative Model Roadmap

归档

分类

标签云