Sonunda konuşmadan metne, ortamdan bağlama geçiyoruz!! standart ses asistanları, akustik bağlamın %90'ını ortadan kaldıran bir ASR (konuşma tanıma) boru hattı kullanır. OpenHome'un gösterdiği şey muhtemelen ham ses spektrogramlarını sürekli işlemek için yerel ses transformatörleri veya CLAP (Kontrastlı Dil-Ses Ön Eğitimi) gömülüleri kullanıyor. sadece kelimeler yerine Akustik Olayları (AED) ve paralinguistik ipuçlarını (iç çekme, ton) algılar. Şimdi sürekli açık kamera görüntüsü ve görsel transformatorlar ekleyin, ve ajanınıza mekânsal işitmesine uygun gözler verdiniz. Gerçek multimodal sensör birleşmesi, manuel yönlendirmeyi geçersiz hale getirebilir Sadece düşünülmesi gereken bir şey