Whisper¶

该要¶

作者研究了仅依赖预测互联网上大量音频转录文本来训练的语音处理系统的能力. 当模型扩展至680,000小时的多语言和多任务监督时, 结果在标准基准上具有良好的泛化能力, 并且在零样本迁移的情境下常常能与先前完全监督的结果相媲美, 而无需任何微调. 与人类相比, 这些模型在准确性与鲁棒性方面已十分接近. 他们正在发布模型和推理代码, 为进一步开展鲁棒语音处理的研究奠定基础.

结论¶

Whisper认为, 在语音识别研究中, 对弱监督预训练的规模化一直未得到充分重视. 他们在无需使用近年来大规模语音识别工作中主要依赖的自监督和自训练技术的情况下, 取得了成果, 并展示了仅通过在大规模且多样化的有监督数据集上进行训练并关注零样本迁移, 就能显著提高语音识别系统的鲁棒性.

插图¶

方法概览. 他们训练了一个序列到序列的Transformer模型, 涵盖多种语音处理任务, 包括多语言语音识别、语音翻译、口语语言识别以及语音活动检测. 所有这些任务都被统一表示为需要由解码器预测的一系列tokens, 从而使单一模型能够替代传统语音处理管线中的多个不同阶段. 多任务训练格式使用了一组特殊的tokens, 作为任务指定或分类目标, 相关细节在后续小节中进一步说明

动机¶

无监督与训练的局限性

尽管无监督预训练技术(如Wav2Vec 2.0)通过大规模无标签音频数据显著提升了语音编码器的质量, 但是其解码器仍然需要通过监督微调才能完成具体任务(如语音识别). 这种依赖带来两个核心问题: (i)部署复杂性, 微调需要专业知识和特定数据集, 限制了模型即插即用的能力; (ii)泛化性不足, 微调可能导致模型过度依赖特定数据集的局部特征(如背景噪声, 口音等), 在其他分布下的表现可能骤然下降.
监督数据规模不足

现有高质量监督数据集(如SpeechStew的5140小时)远小于无监督数据的规模(如100万小时), 而弱监督数据集(如30000小时)仍和无监督规模差距悬殊. 这限制了模型的鲁棒性和跨领域泛化能力.
多语言和多任务需求

现有共工作多为英语但语言任务, 而现实场景需要支持多语言语音识别与翻译任务. 传统方法通过独立训练不同语言模型实现多语言支持, 但是效率和效果受限.

创新¶

弱监督预训练的大规模扩展

将弱监督语音数据规模从已有工作的数万小时提升到680000小时(含117000小时非英语数据和125000小时翻译数据), 首次接近无监督预训练的规模(如Wav2Vec 2.0的百万小时级). 通过自动化流程获取弱监督标签(如视频字幕, 博客转录), 牺牲少量标注质量以换取数据量的指数级增长.
零样本跨数据集泛化

模型无需对目标数据集进行微调即可高质量完成语音识别任务(如LibriSpeech, CommonVoice等), 解决了传统方法依赖微调的问题. 通过大规模多领域的训练, 模型隐式学习到通用语音特征, 而非特定数据集中的虚假关联.
多任务和多语言联合训练

统一框架同时支持语音识别(多种语言), 语音翻译(X->en)等任务, 共享编码器参数. 覆盖96种非英语语言, 实验表明大模型在多语言联合训练中表现更优(无性能损失, 甚至增益).
简化技术路径

无需自监督预训练(如对比学习)或自训练(self-training)等复杂技术, 直接通过端到端弱监督训练实现高性能. 验证了"规模本身"对语音任务的重要性, 和计算机视觉领域的大规模弱监督训练(如CLIP)形成呼应.

Whisper¶

该要¶

结论¶

插图¶

动机¶

创新¶

评论