Math Toolbooks of Machine Learning Theory

正文索引 [隐藏]

🚧

Background

在看神经网络乃至机器学习相关的论文时,经常会遇到一些没见过的数学定义,笔者记忆力很差每次都是去查一查,这里做一下汇总。

分布的KL散度和熵H的关系

$$H(q, p) = -\mathbb{E}_{q(\boldsymbol{x})} \log p(\boldsymbol{x})$$

$$D_{KL}(q || p) = H(q, p) – H(q) = -\mathbb{E}_{q(\boldsymbol{x})} \log p(\boldsymbol{x}) + \mathbb{E}_{q(\boldsymbol{x})} \log q(\boldsymbol{x})$$