estamos finalmente a passar de fala-para-texto para ambiente-para-contexto!! os assistentes de voz padrão utilizam um pipeline ASR (reconhecimento de fala) que remove 90% do contexto acústico. o que a OpenHome está a mostrar provavelmente utiliza transformadores de áudio nativos ou embeddings CLAP (Pré-treinamento Contrastivo de Linguagem-Aúdio) para processar espectrogramas de áudio bruto continuamente. ele detecta Eventos Acústicos (AED) e pistas paralinguísticas (suspiros, tom) em vez de apenas palavras. agora, incorpore um feed de câmera sempre ligado com transformadores visuais, e você acaba de dar ao seu agente olhos para combinar com a sua audição espacial. a verdadeira fusão de sensores multimodais pode tornar a solicitação manual obsoleta apenas algo para pensar