Idag får vi sällskap av @oliver_wang2, huvudforskare på @GoogleDeepMind och teknisk ledare för Gemini 2.5 Flash Image – mer känd under sitt kodnamn "Nano Banana". Vi dyker ner i utvecklingen och möjligheterna hos denna nyligen släppta modell för visionsspråk, och börjar med det bredare skiftet från specialiserade bildgeneratorer till allmänna multimodala agenter som kan använda både visuella och textuella data för en mängd olika uppgifter. Oliver förklarar hur Nano Banana kan generera och iterativt redigera bilder med bibehållen konsistens, och hur dess integration med Geminis världskunskap utökar kreativa och praktiska användningsområden. Vi diskuterar spänningen mellan estetik och noggrannhet, den relativa mognaden hos bildmodeller jämfört med textbaserade LLM:er och skalning som en drivkraft för framsteg. Oliver delar också med sig av överraskande framväxande beteenden, utmaningarna med att utvärdera synspråksmodeller och riskerna med att träna på AI-genererade data. Slutligen blickar vi framåt mot interaktiva världsmodeller och VLM:er som en dag kanske "tänker" och "resonerar" i bilder. En fullständig lista över resurser för det här avsnittet finns på sidan med programanteckningar: 📖 KAPITEL =============================== 00:00 - Introduktion 4:39 - Nano banan 5:35 – Nano banan vs Imagen och bana för bildgenereringsmodeller 7:01 - Integrering av Nano-banan i Tvillingarna 9:52 - Nano banan - en generell modell 13:42 – Modellkonsekvens och redigeringsfunktioner 15:41 – Datakvalitet och modellarkitektur 18:13 – Användningsfall 24:10 – One-shot-modeller jämfört med nodbaserade gränssnitt 28:33 - Finjustering 30:32 – Spännande trender inom bildgenerering och VLM:er 32:40 – Övervinna utmaningarna med modellkvalitet 34:36 – Utmaningar för modellutvärdering 36:32 - Nano banan för- och nackdelar 38:58 – Snabb omskrivning 40:36 - Papper 41:52 - Forskningens tillgänglighet 46:45 – Verifierbara domäner 49:49 - Spänning mellan noggrannhet och estetik 52:50 – Smal datadistribution i bildgenerering 55:15 – AI-genererade bilder för träningsdata 57:56 – Modellskala jämfört med datakurering 58:55 – Mognad för text jämfört med bilddomäner