Den beste og raskeste tale-til-tekst-modellen i verden har nettopp blitt enda bedre! @AssemblyAI har nettopp sluppet en stor oppdatering, og jeg er helt forelsket i en av de nye funksjonene. 1. For det første kan de nå automatisk identifisere personen som snakker i en lyd ved navn eller rolle. 2. Du kan også be om en transkripsjon på et hvilket som helst språk (99 språk støttes så langt), slik at du ikke trenger å bekymre deg for å kjøre flere trinn for oversettelse. Men favorittfunksjonen min er uten tvil LLM Gateway, som lar deg konsolidere hele stemmestabelen din til en enkelt plattform. Gatewayen er en API du kan bruke til et bredt spekter av lydrelaterte oppgaver. Du kan for eksempel bruke den til å oppsummere en samtale, trekke ut innsikt eller klassifisere talerens sentiment. Du trenger ikke lenger en flertrinns rørledning. Du kan foreta en enkelt samtale, og plattformen vil rute forespørselen til riktig modell, inkludert OpenAI, Gemini og andre. Dette er stort for alle som bruker tale i produksjonsapplikasjoner! Alt dette kjører på deres allerede vanvittig raske og nøyaktige tale-til-tekst-plattform, med dagbok og flerspråklig opplæring bakt inn. Hvis du bygger med stemmen, er dette en game-changer. Jeg har vært en Assembly AI-bruker i årevis. Modellene og APIene deres er fantastiske, og jeg er glad de bestemte seg for å samarbeide med meg om dette innlegget. Du kan prøve modellen deres på lekeplassen deres ved å klikke her: