Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Idag får vi sällskap av @oliver_wang2, huvudforskare på @GoogleDeepMind och teknisk ledare för Gemini 2.5 Flash Image – mer känd under sitt kodnamn "Nano Banana". Vi dyker ner i utvecklingen och möjligheterna hos denna nyligen släppta modell för visionsspråk, och börjar med det bredare skiftet från specialiserade bildgeneratorer till allmänna multimodala agenter som kan använda både visuella och textuella data för en mängd olika uppgifter. Oliver förklarar hur Nano Banana kan generera och iterativt redigera bilder med bibehållen konsistens, och hur dess integration med Geminis världskunskap utökar kreativa och praktiska användningsområden. Vi diskuterar spänningen mellan estetik och noggrannhet, den relativa mognaden hos bildmodeller jämfört med textbaserade LLM:er och skalning som en drivkraft för framsteg. Oliver delar också med sig av överraskande framväxande beteenden, utmaningarna med att utvärdera synspråksmodeller och riskerna med att träna på AI-genererade data. Slutligen blickar vi framåt mot interaktiva världsmodeller och VLM:er som en dag kanske "tänker" och "resonerar" i bilder.
En fullständig lista över resurser för det här avsnittet finns på sidan med programanteckningar:
📖 KAPITEL
===============================
00:00 - Introduktion
4:39 - Nano banan
5:35 – Nano banan vs Imagen och bana för bildgenereringsmodeller
7:01 - Integrering av Nano-banan i Tvillingarna
9:52 - Nano banan - en generell modell
13:42 – Modellkonsekvens och redigeringsfunktioner
15:41 – Datakvalitet och modellarkitektur
18:13 – Användningsfall
24:10 – One-shot-modeller jämfört med nodbaserade gränssnitt
28:33 - Finjustering
30:32 – Spännande trender inom bildgenerering och VLM:er
32:40 – Övervinna utmaningarna med modellkvalitet
34:36 – Utmaningar för modellutvärdering
36:32 - Nano banan för- och nackdelar
38:58 – Snabb omskrivning
40:36 - Papper
41:52 - Forskningens tillgänglighet
46:45 – Verifierbara domäner
49:49 - Spänning mellan noggrannhet och estetik
52:50 – Smal datadistribution i bildgenerering
55:15 – AI-genererade bilder för träningsdata
57:56 – Modellskala jämfört med datakurering
58:55 – Mognad för text jämfört med bilddomäner
Topp
Rankning
Favoriter
