据我所知,Suno 在语音合成的帕累托前沿,尽管它是为音乐而非语音设计的。 优点: - 能够生成文本中指定的自定义声音:描述声音的任何定性特性以及语音的传递方式 - 情感处理得很好 - 比我尝试过的其他东西更少平坦和机械 - 支持延续(从任意点分支和继续生成样本) 缺点: - 速度慢 - 没有 API - 在长文本中失去连贯性 - 即使你只要求语音,也有可能会突然唱歌或插入背景乐器(尽管你可以导出人声音轨以去掉乐器) 因此,它非常适合朗读短的、非互动的文本,或者创建可以导入到例如 Elevenlabs 的自定义声音,在这两种情况下,如果你想对声音和声音的个性有更多控制。 如果有更好的选择,具有更多这些优点或更少这些缺点,我很想知道。