Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
dus je kiest voor de dood

Om op objectniveau te reageren @TheZvi
Technisch gezien zou DSA een grote sprong kunnen zijn die Gemini-schaalcontexten triviaal goedkoop maakt, zelfs voor modellen van de vorige generatie. Voorbehouden:
- we zijn niet zeker *of* het opschaalt naar 1M+ (maar V3.2 exp≥V3.1 ondanks identieke pretraining, en V3.2>> exp, dus zeer waarschijnlijk wel)
- we zijn niet zeker hoe het kan worden getraind zonder opstarten vanuit dichte aandacht. Misschien weet DeepSeek het. Ik denk dat V4 geen DSA zal gebruiken, het wordt expliciet een prototype genoemd. In het slechtste geval is het ook logisch om voor te trainen met volledige aandacht => uitbreiden => sparsifiëren, je maakt meer kosten in pretraining voor permanent goedkopere inferentie.
- Kimi's KDA of Qwen's GDN+ of iets dergelijks zou zelfs beter kunnen zijn dan DSA+/NSA+
Afgezien van deze voorbehouden, is dit geen prijsverlaging van 2x, ik ben sarcastisch. Meer als 10x. Sparse aandacht die niet degradeert is een behoorlijk grote zaak.
Wat betreft snelheid, het is een triviaal punt vanuit het modelperspectief. DeepSeek is niet geïnteresseerd in het bieden van het beste product. Ze bedienen met enorme batches van H800s/Ascends. Je kunt het op Amerikaanse hardware zetten en 60-150 t/s krijgen, of op Cerebras en GLM-achtige 1000 t/s krijgen, zonder de kosten op te blazen. Deze architectuur is van nature snel (ondiepe, goedkope aandacht), het is gewoon dat DeepSeek het langzaam serveert.
Wat betreft grensintelligentie, ik zeg dat deze «usemaxing» voordelen van de grens – agentic coding voornamelijk, maar je kunt op dezelfde manier meer domeinen dekken – een product zijn van rekenuitgaven op RL-stappen en op itereren door synthetische omgevingen. Ze hebben het recept. Ze rapporteren ≈10% van de pretrainingkosten besteed aan Speciale. Dat is ≈$600K. Grok 4 zou naar verluidt 100% van Grok 3 hebben gebruikt, of tientallen-honderden miljoenen. Het is duidelijk zeer inefficiënt geweest met Grok, maar ik denk dat DeepSeek gemakkelijk naar 100% zou kunnen gaan, het recept is bekend. Ze willen het waarschijnlijk niet verspillen op een verouderde basis, aangezien ze opmerken dat het kennisgebotteld blijft.
Ik vind de onverschillige houding ten opzichte van IMO-niveau wiskunde prestaties (of zero-shotting Erdos-problemen tot het niveau dat de menselijke oplosser zegt «ja, dat is in wezen mijn oplossing») grappig. Waren we niet allemaal supposed om AGI te verwachten van onafhankelijk wiskundeonderzoek. Of is het nu alleen coderen. Arguably is dat de meest interessante capaciteit voor het schatten van opstijgsnelheden. Maar wat dan ook, ik geloof zelf in een langzame opstijging, zelfverbetering zal tegen logistieke problemen aanlopen, ongeacht waar we beginnen.
De belangrijkste bijdrage hier, zoals ik al zei, is dat ze de overtuiging aankondigen dat ze fundamenteel de training van late 2025 grens-LLM's als een onderzoeksprogramma hebben opgelost, en dat ze het huidige Westerse niveau of daarboven kunnen bereiken door gewoon meer rekenkracht in te stoppen (plus kleine aanpassingen rond token efficiëntie). In theorie kan hun aankondiging van het kijken naar grootschaligere training aan het einde worden geïnterpreteerd als «en dat is wat we nu doen». Maar dat moet nog worden gezien.
@TheZvi > ondanks identieke voortraining
en nabehandeling, correctie
2,87K
Boven
Positie
Favorieten

