DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

nanochat kouluttaa nyt GPT-2-ominaisuusmallin vain kahdessa tunnissa yhdellä 8XH100-solmulla (kun se oli ~3 tuntia kuukausi sitten). Lähestytään paljon ~interaktiivista! Paljon säätöjä ja ominaisuuksia (fp8) tehtiin, mutta suurin ero oli datan vaihto FineWeb-edusta NVIDIA ClimbMixiin (hienoa työtä NVIDIA!). Olmin kokeillut Olmoa, FineWebiä, DCLM:ää, jotka kaikki johtivat regressioihin, ClimbMix toimi todella hyvin heti alusta alkaen (niin paljon, että olen hieman epäileväinen goodhartingista, vaikka artikkelia lukiessa se vaikuttaa ~ok). Muissa uutisissa, kokeiltuani muutamia lähestymistapoja asetuksiin, tekoälyagentit iteroivat nanochatia automaattisesti, joten jätän tämän pyörimään hetkeksi, menen rentoutumaan ja nautin post-agi-:) tunteesta. Tässä visualisoituna esimerkkinä: 110 muutosta on tehty viimeisen ~12 tunnin aikana, mikä pudottaa validointitappion 0,862415:stä 0,858039:ään d12-mallissa, ilman seinäkellon kulua. Agentti työskentelee ominaisuushaaran parissa, kokeilee ideoita, yhdistää niitä kun ne toimivat ja iteroidaan. Hauskaa kyllä, viimeisen ~2 viikon aikana tuntuu melkein siltä, että olen kehittänyt enemmän "meta-setupia", jossa optimoin ja säädän agenttivirtoja jopa enemmän kuin nanochat-repositio suoraan.

Johtavat

Rankkaus

Suosikit