微软开源的 VibeVoice-1.5B 模型在语音合成领域带来了一些值得关注的突破

337 阅读 0 评论 0 点赞

核心突破：长时语音合成与多说话人支持

VibeVoice-1.5B 的核心突破在于其长时语音合成能力和多说话人支持。

超长语音合成：模型能一次性连续合成长达90分钟的超逼真语音。这相比此前多数模型只能合成60分钟以内语音，且30分钟后常出现音色漂移、语义断裂等问题，是一个显著提升。
多说话人支持：最多可支持4名发言人进行语音合成，而此前许多开源模型最多仅支持2人。这意味着它能生成更接近自然对话的语音，为多角色有声书、播客等应用提供了可能。
高效压缩：模型能对24kHz原始音频实现3200倍的累计压缩率，压缩效率是主流Encodec模型的80倍，同时仍能保持高保真的语音效果。这对于存储和传输大量音频数据非常有利。

VibeVoice-1.5B 在技术实现上也有其独到之处：

双Tokenizer协同架构：模型通过首创的声学tokenizer和语义tokenizer协同工作来解决音色与语义不匹配的难题。
- 声学tokenizer：负责保留声音特征并实现极致压缩，采用基于变分自编码器（VAE）的对称编码-解码结构。
- 语义tokenizer：核心目标是提取与文本语义对齐的特征，确保合成语音的语调与文本情感内容一致，例如避免“悲伤的文本用欢快的语调合成”。
课程学习策略：在训练大语言模型时，输入序列长度会从初始的4096个token逐步增加至65536个token（对应90分钟音频），以避免模型因直接处理超长序列而训练失败。预训练的声学与语义tokenizer参数在训练过程中保持不变，只更新大语言模型与后续扩散头的参数，此举使训练周期缩短了50%。
流式处理支持：声学编码器采用1D深度可分离因果卷积，这种设计不仅支持流式处理（一边接收音频一边进行特征提取，避免长音频全部加载导致内存不足），还能有效捕捉音频的时间顺序关联性。

VibeVoice-1.5B 的这些特性使其在一些场景下具有应用潜力：

VibeVoice-1.5B 也存在一些局限性：

微软 VibeVoice-1.5B 的开源，通过其在长时语音合成、多说话人支持以及高效压缩技术方面的突破，推动了神经网络语音合成技术向更自然、更高效、更实用的方向发展。

开源地址：https://huggingface.co/microsoft/VibeVoice-1.5B