DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Me pregunto si los MiniMax bros admitirán públicamente su error cuando avancen al #3. Ha sido molesto cómo se jactaron del supuesto fracaso de la escalabilidad de NSA y de su genial decisión de optar por GQA (y ni siquiera un GQA ingenioso como en StepFun). Modelo rápido y caro con atención débil.

No les tengo en cuenta la decisión técnica real, de todos modos son bienvenidos a hacer como los demás y cambiar a DSA/MLA híbrido (o cualquier otra cosa). Su enfoque con M2 ha sido claramente en los datos y el entrenamiento, y han hecho un montón de progreso allí. Pero fue molesto.

516

Parte superior

Clasificación

Favoritos