Предварительный просмотр S2S от OpenAI отшлифован, но он все еще мыслит шагами. Речь → текст → модель → текст → речь. Так люди не общаются. Представляем Hydra. Нативная модель преобразования речи в речь, которая не ждет своей очереди, не упрощает эмоции до текста и не зависает, когда вы перебиваете ее на полуслове. Hydra рассуждает асинхронно, говорит и слушает одновременно, и сохраняет эмоции, потому что никогда не покидает аудиопространство. Она все еще в бета-версии, но изменения очевидны. Если вы хотите получить ранний доступ, ссылка в комментариях. Вот предварительный просмотр того, как это выглядит -