Non capisco perché il riconoscimento vocale (STT) di Byte possa avere il prezzo più basso, mentre il testo in voce (TTS) sia il più costoso tra le grandi aziende. È forse perché i costi iniziali per la raccolta di dialetti e la sintesi sono relativamente alti? I prezzi nell'immagine sono calcolati in base alle richieste odierne, senza garanzia di tempestività e correttezza. I prezzi di Alibaba sono solo di riferimento e non sono molto adatti per gli sviluppatori comuni.