Люди справді не розуміють, чим став відкритий код конкурентна стратегічна зброя і як він працює. Альфред Маршалл був би гордий. Завжди добре перечитати собор і базар.
Aakash Gupta
Aakash Gupta16 лют., 02:24
Частина, яку більшість пропустить: NVIDIA щойно зробила кожен API голосового AI товаром. OpenAI стягує $0.06/хв вхід і $0.24/хвилину виведення за Realtime API. Gemini Live сплачує 25 токенів за секунду аудіо. Кожен стартап, що створює голосових агентів, витрачає гроші на комісію API за хвилину, щоб реалізувати фундаментальну проблему конвеєра: ASR → LLM → TTS — три моделі, зшиті разом із затримкою на кожному шві. PersonaPlex замінює весь цей конвеєр на одну 7B-модель. Працює на одній A100. Відкриті ваги, ліцензія MIT, комерційне використання дозволено. Затримка відгуку: 0,170 секунди для виконання черг, 0,240 секунди для переривань. Він має вищий бал за натуральністю діалогу, ніж Gemini (2.95 проти 2.80 MOS) і краще справляється з перериваннями, ніж усі комерційні системи, які вони бенчмаркували. Це розповідає все про підхід NVIDIA. Вони не повинні брати плату за модель. Вони хочуть, щоб ви купили GPU. Кожна компанія, яка самостійно розміщує PersonaPlex замість оплати OpenAI за хвилину, — це ще один розпродаж за A100/H100. Кожен запуск голосового агента, який відмовляється від залежності від API, — це ще один корпоративний контракт GPU. NVIDIA відкрила вудку, бо вони продають озеро. Побудований на архітектурі Moshi з Kyutai, тонко налаштований із обсягом даних менш ніж 5 000 годин. Margin голосового AI мігрує з прикладного рівня на апаратний. І NVIDIA — єдина компанія, яка отримує прибуток незалежно від того, яка модель перемагає. 330 000 завантажень за перший місяць. Це захоплення інфраструктури, замасковане під щедрість.
У довгостроковій перспективі гранична ціна прагне рухатися до граничних витрат. У програмному забезпеченні це $0.
26