Jemand sollte einen wirklich multimodalen Agenten entwickeln, der zwischen Hunderten von verschiedenen spezialisierten Modellen für unterschiedliche Aufgaben wechselt (einschließlich vielleicht sogar lokaler Modelle letztendlich?) Es fühlt sich an, als würde es die Geschwindigkeit, Erschwinglichkeit und Leistungsfähigkeit um ein Vielfaches für Agenten erhöhen und wäre mit Inferenzanbietern auf Hugging Face und Hugging Face Skills machbar!