DApp Store | Web3 Hub for hendelser og spill

Populære emner

I dag får vi selskap av @oliver_wang2, hovedforsker ved @GoogleDeepMind og teknisk leder for Gemini 2.5 Flash Image – bedre kjent under kodenavnet "Nano Banana." Vi dykker ned i utviklingen og mulighetene til denne nylig utgitte frontier vision-språkmodellen, og begynner med det bredere skiftet fra spesialiserte bildegeneratorer til generelle multimodale agenter som kan bruke både visuelle og tekstlige data til en rekke oppgaver. Oliver forklarer hvordan Nano Banana kan generere og iterativt redigere bilder samtidig som den opprettholder konsistens, og hvordan integrasjonen med Geminis verdenskunnskap utvider kreative og praktiske brukstilfeller. Vi diskuterer spenningen mellom estetikk og nøyaktighet, den relative modenheten til bildemodeller sammenlignet med tekstbaserte LLM-er, og skalering som en driver for fremgang. Oliver deler også overraskende atferd, utfordringene med å evaluere synsspråkmodeller og risikoen ved å trene på AI-genererte data. Til slutt ser vi fremover mot interaktive verdensmodeller og VLM-er som en dag kan "tenke" og "resonnere" i bilder. For den fullstendige listen over ressurser for denne episoden, besøk siden for programnotater: 📖 KAPITLER =============================== 00:00 - Introduksjon 4:39 - Nano banan 5:35 - Nanobanan vs Imagen og bane for bildegenereringsmodeller 7:01 - Integrering av Nano-banan i Gemini 9:52 - Nanobanan – en generell modell 13:42 – Modellkonsistens og redigeringsmuligheter 15:41 – Datakvalitet og modellarkitektur 18:13 – Brukstilfeller 24:10 – One-shot-modeller kontra nodebaserte grensesnitt 28:33 – Finjustering 30:32 - Spennende trender innen bildegenerering og VLM-er 32:40 – Overvinne utfordringene med modellkvalitet 34:36 - Utfordringer med modellevaluering 36:32 - Nano banan fordeler og ulemper 38:58 – Rask omskriving 40:36 - Papirer 41:52 - Forskningens tilgjengelighet 46:45 – Verifiserbare domener 49:49 - Spenning mellom nøyaktighet og estetikk 52:50 – Smal datadistribusjon i bildegenerering 55:15 – AI-genererte bilder for treningsdata 57:56 – Modellskala kontra datakuratering 58:55 – Modenhet for tekst- kontra bildedomener

Topp

Rangering

Favoritter