Flamingo
摘要¶
构建能够仅用少量标注示例就能快速适应新任务的模型, 仍然是多模态机器学习研究中的一个尚未解决的挑战. 他们介绍了 Flamingo, 一系列具备这种能力的视觉语言模型(VLM). 他们提出了关键的架构创新, 以 (i) 连接强大的仅视觉预训练模型和仅语言预训练模型, (ii) 处理任意混合的视觉与文本数据序列, 并 (iii) 无缝接收图像或视频作为输入.
由于其灵活性, Flamingo 模型可以在包含任意交错文本与图像的大规模多模态网络语料上进行训练, 这对于赋予它们上下文内小样本学习能力至关重要. 他们对这些模型进行了全面的评估, 以探索并测量它们快速适应各种图像和视频任务的能力. 其中包括开放式任务, 例如视觉问答, 模型会收到一个问题并需要给出答案; 描述性任务, 评估模型对场景或事件的描述能力; 以及封闭式任务, 如多项选择的视觉问答.
对于处于这一范围内的任何任务, 只需使用少量针对该任务的示例来提示模型, 单一的 Flamingo 模型就能通过小样本学习取得全新的前沿成果. 在众多基准上, Flamingo 的表现优于那些在数量多出数千倍的任务特定数据上进行微调的模型.
结论¶
局限性¶
首先, 他们的模型基于预训练的语言模型, 因此会直接继承其中的不足之处. 例如, 语言模型的先验通常有帮助, 但有时也会导致生成幻觉或缺乏依据的猜测. 此外, 语言模型对比训练时更长的序列往往泛化能力不足, 并且在训练中样本效率较低(1). 若能解决这些问题, 将会加速该领域的研究进展, 并进一步提升像 Flamingo 这样的视觉语言模型的能力.
- "Poor sample efficiency"指的是模型需要大量的数据才能学到有用的知识, 对数据的利用率较低, 并且在有限的样本下无法有效地泛化或达到理想的性能. 换句话说, 当一个模型的sample efficiency不佳时, 即便投入了不少训练样本, 其表现也难以大幅度提升. 这在大规模预训练模型中尤为明显, 因为在实际应用中, 往往很难收集并标注海量且多样化的高质量数据.
其次, Flamingo 在分类任务方面的表现不及当前最先进的对比模型. 这些对比模型直接针对文本-图像检索进行优化, 而分类只是其中的一种特例. 相比之下, Flamingo 旨在应对更广泛的任务, 包括开放式任务. 因此, 如何结合这两种思路以兼具双方优势, 是一个重要的研究方向.
第三, 与基于梯度的小样本学习方法相比, 上下文内学习拥有显著优势, 但其具体效果也取决于应用场景的特征. 作者展示了当可用样本仅限于几十个时, 上下文内学习能发挥有效作用. 上下文内学习也使得部署更为简单, 只需要推理, 通常无需调参. 然而, 这种方法对示例演示的各方面都极其敏感, 并且当超出低数据范畴后, 推理所需的计算开销和整体性能扩展并不理想. 在未来, 或许可以将小样本学习方法结合起来, 以互补方式提升性能.
社会影响¶
就社会影响而言, Flamingo 带来了许多益处, 但也伴随着一定风险. 它能够快速适应多种任务, 有助于在数据匮乏的场景中取得良好表现, 从而降低了对善意或恶意应用的技术门槛. 由于 Flamingo 与大型语言模型具有相似性质, 可能会输出冒犯性语言, 并传播社会偏见或刻板印象, 还可能泄露隐私信息. 在可处理视觉输入的能力上, 也会面临与视觉识别系统类似的风险, 例如性别和种族偏见. 借助 Flamingo 的小样本学习能力, 可能有助于减轻这类风险.
总结¶
作者提出了 Flamingo, 一种通用的模型家族, 只需极少的任务特定训练数据, 就能应用于图像和视频任务. 同时, 他们还对 Flamingo 的交互式能力进行了定性探索, 例如与模型“聊天”, 展示了超越传统视觉基准的灵活性. 这些结果表明, 将预训练的大型语言模型与强大的视觉模型相结合, 是迈向通用视觉理解的关键一步.