Odotan innolla uusinta Olmo-mallia: Olmo Hybridiä. Tämä on malli, jossa portilliset delta-verkkokerrokset (GDN) ovat 3:1-suhteessa täydellä huomiolla. Se seuraa monia muita kehityksiä, kuten Qwen 3.5 ja Kimi Linear. On uskomaton ajankohta julkaista täysin avoin malli, jotta ihmiset voivat tutkia, miten nämä arkkitehtuurin muutokset vaikuttavat koko pinoon. Itse opin paljon siitä, että jatkokoulutus toimisi. Vaikka esikoulutuksen tiedot ovat identtiset, jälkikoulutus on hyvin erilaista! Erityisesti näiden uusien arkkitehtuurien OSS-työkalut ovat todella rajalliset. Uudet arkkitehtuurit ovat paljon hitaampia kuin tavalliset muuntajat tai suositut mallit kuten DeepSeek MoEs. Tämä on työtä, jota voimme tehdä yhdessä, jotta voimme jatkaa tehokkaiden ja avoimien mallien rajojen viemistä. Tätä työtä johti @lambdaviking @tyleraromero ja muut. Sain olla pienemmässä roolissa koulutuksen jälkeisessä työssä, todella hauska projekti! Olen kirjoittanut blogikirjoituksen, jossa selitän, miksi tämä on tärkeää, ja hybridimallit eivät toimineet muutama vuosi sitten, kun Mamba oli todella suosittu. Lisäksi tämä artikkeli on erinomainen lähtökohta nykyaikaiseen syväoppimisen / kielimallinnuksen skaalausteoriaan. Nauti ja lähetä palautetta!
@interconnectsai Suurin osa tämän projektin laskennasta vastasi @LambdaAPI. Ilman sitä tätä Olmo Hybridiä ei olisi olemassa, kiitos avoimen yhteisön tuesta.
51