Найкраща та найшвидша модель перетворення мови в текст у світі стала ще кращою! @AssemblyAI щойно випустив величезне оновлення, і я абсолютно закоханий в одну з нових функцій. 1. По-перше, тепер вони можуть автоматично ідентифікувати людину, яка говорить в аудіо, за іменем або роллю. 2. Ви також можете запросити транскрипцію будь-якою мовою (наразі підтримується 99 мов), тому вам не доведеться турбуватися про виконання додаткових кроків для перекладу. Але моєю улюбленою функцією, безумовно, є шлюз LLM, який дозволяє консолідувати весь ваш голосовий стек на єдиній платформі. Шлюз — це API, який можна використовувати для широкого спектру завдань, пов'язаних зі звуком. Наприклад, ви можете використовувати його, щоб підсумувати дзвінок, витягнути думки або класифікувати настрій доповідача. Більше немає потреби в багатоступінчастому трубопроводі. Ви можете зробити один дзвінок, і платформа направить запит на відповідну модель, включаючи OpenAI, Gemini та інші. Це дуже важливо для тих, хто використовує голос у виробничих програмах! Все це працює на їхній і без того шалено швидкій і точній платформі перетворення мови в текст, з вбудованою діаризацією та багатомовним навчанням. Якщо ви створюєте за допомогою голосу, це кардинально змінює правила гри. Я вже багато років користуюся Assembly AI. Їхні моделі та API дивовижні, і я радий, що вони вирішили співпрацювати зі мною над цією публікацією. Ви можете спробувати їхню модель на їхньому дитячому майданчику, натиснувши тут: