xAI только что выпустила API для преобразования текста в речь! 5 голосов (eve, ara, rex, sal, leo), встроенные теги речи, потоковая передача по WebSocket и поддержка форматов от высококачественного WAV до телефонного mulaw. Вы можете писать такие вещи, как: "Я зашел и [pause] вот оно. [laugh] Я честно не мог в это поверить!" Или обернуть разделы: <whisper>Это секрет.</whisper> Паузы, смех, хихиканье, вздохи, дыхание, тон, скорость, громкость. Реальный выразительный контроль встроен в сам текст. Три строки curl, чтобы начать. SDK не требуется. Это сочетается с xAI Realtime API. Голос на входе, голос на выходе, Grok посередине. Полный стек уже здесь. Бета-цены. Идите поиграйте с этим.