DApp Store | Centrum Web3 pro události a hry

Populární témata

Ano, přesně tak. Konečně začínáme s autovýzkumem @karpathy, který je nyní upraven pro architekturu koherentního transformátoru. Malý model. 4 vrstvy × 4 hlavy × 256 tmavých ≈ ~5M parametrů, trénink na 128, hodnocení na 1024. Žádné softmax attention hlavy. Nahrazeno oscilátorovými mřížkami. Veškerá generace probíhá vrstvu nad transformátorem v čisté rezonanční mřížce, která řídí generování tokenů. Teoretické kontinuální učení a nekonečný kontext, protože neexistuje KV cache. Jen úložiště fázově uzamčených režimů z tokenů, které se koherentně spojují.

Top

Hodnocení

Oblíbené