虚拟人

微软开源的 VibeVoice-1.5B 模型在语音合成领域带来了一些值得关注的突破

核心突破:长时语音合成与多说话人支持VibeVoice-1.5B 的核心突破在于其长时语音合成能力和多说话人支持。超长语音合成:模型能一次性连续合成长达90分钟的超逼真语音。这相比此前多数模型只能合成60分钟以内语音,且30分钟后常出现音色漂移、语义断裂等问题,是一个显著提升。多说话人支持:最多可支持4名发言人进行语音合成,而此前许多开源模型最多仅支持2人。这意味着它能生成更接近自然对话的语音,为