Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I dag får vi selskap av @oliver_wang2, hovedforsker ved @GoogleDeepMind og teknisk leder for Gemini 2.5 Flash Image – bedre kjent under kodenavnet "Nano Banana." Vi dykker ned i utviklingen og mulighetene til denne nylig utgitte frontier vision-språkmodellen, og begynner med det bredere skiftet fra spesialiserte bildegeneratorer til generelle multimodale agenter som kan bruke både visuelle og tekstlige data til en rekke oppgaver. Oliver forklarer hvordan Nano Banana kan generere og iterativt redigere bilder samtidig som den opprettholder konsistens, og hvordan integrasjonen med Geminis verdenskunnskap utvider kreative og praktiske brukstilfeller. Vi diskuterer spenningen mellom estetikk og nøyaktighet, den relative modenheten til bildemodeller sammenlignet med tekstbaserte LLM-er, og skalering som en driver for fremgang. Oliver deler også overraskende atferd, utfordringene med å evaluere synsspråkmodeller og risikoen ved å trene på AI-genererte data. Til slutt ser vi fremover mot interaktive verdensmodeller og VLM-er som en dag kan "tenke" og "resonnere" i bilder.
For den fullstendige listen over ressurser for denne episoden, besøk siden for programnotater:
📖 KAPITLER
===============================
00:00 - Introduksjon
4:39 - Nano banan
5:35 - Nanobanan vs Imagen og bane for bildegenereringsmodeller
7:01 - Integrering av Nano-banan i Gemini
9:52 - Nanobanan – en generell modell
13:42 – Modellkonsistens og redigeringsmuligheter
15:41 – Datakvalitet og modellarkitektur
18:13 – Brukstilfeller
24:10 – One-shot-modeller kontra nodebaserte grensesnitt
28:33 – Finjustering
30:32 - Spennende trender innen bildegenerering og VLM-er
32:40 – Overvinne utfordringene med modellkvalitet
34:36 - Utfordringer med modellevaluering
36:32 - Nano banan fordeler og ulemper
38:58 – Rask omskriving
40:36 - Papirer
41:52 - Forskningens tilgjengelighet
46:45 – Verifiserbare domener
49:49 - Spenning mellom nøyaktighet og estetikk
52:50 – Smal datadistribusjon i bildegenerering
55:15 – AI-genererte bilder for treningsdata
57:56 – Modellskala kontra datakuratering
58:55 – Modenhet for tekst- kontra bildedomener
Topp
Rangering
Favoritter
