據我所知,Suno 在語音合成的帕累托邊界上,即使它是為音樂而非語音而設計的。 優點: - 能夠生成文本中指定的自定義聲音:描述聲音的質量特性以及語音的表達方式 - 情感處理良好 - 比我試過的其他東西更少平坦和機械化 - 支持延伸(從任意點分支和繼續生成樣本) 缺點: - 速度慢 - 沒有 API - 在長文本中失去連貫性 - 即使你只要求語音,也有可能會突然唱歌或插入背景音樂(不過你可以導出聲音主幹來去掉音樂) 因此,它非常適合朗讀短的非互動文本,或創建可以導入到例如 Elevenlabs 的自定義聲音,在這兩種情況下,如果你想對聲音和聲音的個性有更多控制。 如果有更好的選擇,擁有更多這些優點或更少這些缺點,我很想知道。