Skip to content

VQ-VAE

概要

在没有监督的情况下学习有用的表征仍然是机器学习中的一个关键挑战. 在本文中, 作者提出了一种简单而又强大的生成模型, 可以学习这种有用的表征. 他们的模型, 向量量化变分自编码器(VQ-VAE), 在两个方面和VAEs不同: 编码器网络输出离散而不是连续的编码, 先验是学习到的, 而不是静态定义的(即那个\(p(\mathbf{Z})\)不是固定的正态分布\(\mathbb{N}(\mathbf{0}, \mathbf{I})\), 而是可学习的). 为了学习离散的潜在表示, 他们采用了向量量化的(VQ)的思想. 使用VQ可以使模型避免"后验坍缩"问题, 即在使用强大的自回归解码器的时候, 潜变量所含有的信息量通常接近于0, 这是在使用VAE框架的时候经常遇到的. 拥有了这些表征和自回归的先验, 该模型可以生成高质量的图像, 视频和语音, 并能实现高质量的说话人转换和音素的无监督学习, 从而进一步证明所学表示的实用价值.