المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تحدث إلى ملف أعمالك.
لقد أرسلنا الصوت إلى مونتزه: وضعان، نفس شريط الإدخال.
الإملاء: الميكروفون التاب، التحدث، تظهر الكلمات في حقل النص. تعديل قبل الإرسال. الرد جاء على شكل نص.
المحادثة: اضغط على شكل موجة، تحدث بشكل طبيعي. مونتزه يستمع، يفكر، ثم يرد عليك بينما الرسالة
يبث في نفس الوقت.
الجزء التقني المهم: نحن لا نستخدم نموذج صوتي أصلي. قمنا ببناء خط أنابيب للبث المزدوج:
يتصل خطابك إلى واجهة برمجة تطبيقات الكلام على الويب، ويعالجها نموذج اللغة الكبيرة الخاص بنا، ويقوم سونيك بتركيب جملة الرد-
جملة واحدة مع وصول الرموز. يبدأ الصوت الأول في أقل من 400 مللي ثانية بعد تكوين الجملة الأولى.
المشاكل الصعبة التي حلناها:
→ إلغاء الصدى: يتوقف STT أثناء التشغيل حتى لا ينسخ مونتزي صوته الخاص ويكرر نفسه إلى الأبد
→ ترتيب الجمل: طلبات TTS تطلق بشكل متوازي للحصول على السرعة، لكن الصوت يشغل بتسلسل دقيق
→ اختصار الصوت: عندما تستمع، لا تريد مقالا مدته دقيقتان. يقوم الوكيل تلقائيا بالتبديل إلى
ردود محادثة من 2-3 جمل في وضع الصوت.
نفس العمق متاح إذا سألت عن متابعات.
رمزان. نقرة واحدة. اسأل مونتزي عن أداء ملف أعمالك واسمع الإجابة فعليا أثناء الإنشاء
قهوة.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
