تحدث إلى ملف أعمالك. لقد أرسلنا الصوت إلى مونتزه: وضعان، نفس شريط الإدخال. الإملاء: الميكروفون التاب، التحدث، تظهر الكلمات في حقل النص. تعديل قبل الإرسال. الرد جاء على شكل نص. المحادثة: اضغط على شكل موجة، تحدث بشكل طبيعي. مونتزه يستمع، يفكر، ثم يرد عليك بينما الرسالة يبث في نفس الوقت. الجزء التقني المهم: نحن لا نستخدم نموذج صوتي أصلي. قمنا ببناء خط أنابيب للبث المزدوج: يتصل خطابك إلى واجهة برمجة تطبيقات الكلام على الويب، ويعالجها نموذج اللغة الكبيرة الخاص بنا، ويقوم سونيك بتركيب جملة الرد- جملة واحدة مع وصول الرموز. يبدأ الصوت الأول في أقل من 400 مللي ثانية بعد تكوين الجملة الأولى. المشاكل الصعبة التي حلناها: → إلغاء الصدى: يتوقف STT أثناء التشغيل حتى لا ينسخ مونتزي صوته الخاص ويكرر نفسه إلى الأبد → ترتيب الجمل: طلبات TTS تطلق بشكل متوازي للحصول على السرعة، لكن الصوت يشغل بتسلسل دقيق → اختصار الصوت: عندما تستمع، لا تريد مقالا مدته دقيقتان. يقوم الوكيل تلقائيا بالتبديل إلى ردود محادثة من 2-3 جمل في وضع الصوت. نفس العمق متاح إذا سألت عن متابعات. رمزان. نقرة واحدة. اسأل مونتزي عن أداء ملف أعمالك واسمع الإجابة فعليا أثناء الإنشاء قهوة.