Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tänään seuraamme liittyy @oliver_wang2, @GoogleDeepMind:n johtava tutkija ja Gemini 2.5 Flash Imagen tekninen johtaja – joka tunnetaan paremmin koodinimellä "Nano Banana". Sukellamme tämän äskettäin julkaistun rajanäkökielimallin kehitykseen ja ominaisuuksiin alkaen laajemmasta siirtymisestä erikoistuneista kuvageneraattoreista yleiskäyttöisiin multimodaalisiin agentteihin, jotka voivat käyttää sekä visuaalista että tekstimuotoista dataa erilaisiin tehtäviin. Oliver selittää, kuinka Nano Banana voi luoda ja iteratiivisesti muokata kuvia säilyttäen samalla johdonmukaisuuden, ja kuinka sen integrointi Kaksosten maailmantuntemukseen laajentaa luovia ja käytännöllisiä käyttötapauksia. Keskustelemme estetiikan ja tarkkuuden välisestä jännitteestä, kuvamallien suhteellisesta kypsyydestä verrattuna tekstipohjaisiin LLM-laitteisiin ja skaalautumisesta edistyksen ajurina. Oliver kertoo myös yllättävistä esiin nousevista käyttäytymismalleista, näkökielimallien arvioinnin haasteista ja tekoälyn tuottaman datan harjoittelun riskeistä. Lopuksi katsomme eteenpäin interaktiivisiin maailmanmalleihin ja VLM:iin, jotka saattavat jonain päivänä "ajatella" ja "järkeillä" kuvissa.
Täydellinen luettelo tämän jakson resursseista on ohjelman muistiinpanosivulla:
📖 LUKUA
===============================
00:00 - Johdanto
4:39 - Nanobanaani
5:35 – Nanobanaani vs. Imagen ja kuvan luontimallien kehityskaari
7:01 - Nanobanaanin integrointi Geminiin
9:52 – Nanobanaani – yleiskäyttöinen malli
13:42 – Mallin yhdenmukaisuus ja muokkausominaisuudet
15:41 – Tietojen laatu ja malliarkkitehtuuri
18:13 – Käyttötapaukset
24:10 – Kertamallit vs. solmupohjaiset käyttöliittymät
28:33 – Hienosäätö
30:32 – Jännittäviä trendejä kuvien luomisessa ja VLM:issä
32:40 - Mallin laadun haasteiden voittaminen
34:36 – Mallin arvioinnin haasteet
36:32 - Nanobanaanien plussat ja miinukset
38:58 – Nopea uudelleenkirjoitus
40:36 - Paperit
41:52 - Tutkimuksen saavutettavuus
46:45 – Todennettavissa olevat toimialueet
49:49 - Tarkkuuden ja estetiikan välinen jännite
52:50 – Suppea tietojen jakelu kuvien luomisessa
55:15 – Tekoälyn luomat kuvat harjoitustietoja varten
57:56 – Mallin mittakaava vs. tietojen kuratointi
58:55 – Tekstin kypsyysaste verrattuna kuva-alueisiin
Johtavat
Rankkaus
Suosikit
