Een Chinees AI-lab heeft stilletjes een model vrijgegeven dat zichzelf heeft getraind om met 30% te verbeteren 🤯 Het @MiniMax_AI-team gaf M2.7 toegang tot zijn eigen trainingsinfrastructuur. Zijn eigen reinforcement learning-pijplijn. Zijn eigen geheugen. Toen zeiden ze tegen het model dat het zichzelf beter moest maken. En dat deed het... M2.7 bouwde tientallen complexe vaardigheden binnen zijn eigen RL-harnas. Het werkte zijn eigen geheugensystemen bij. Het optimaliseerde zijn eigen reinforcement learning-proces op basis van resultaten die het in real-time evalueerde. Het draaide deze cyclus autonoom voor meer dan 100 rondes, analyseerde faaltrajecten, wijzigde zijn eigen scaffold-code, voerde evaluaties uit, vergeleek resultaten en besloot wat te behouden of terug te draaien. Geen mens in de lus. Alleen het model dat het model verbetert. Het resultaat: - 30% prestatieverbetering op interne evaluaties - 66,6% medaillepercentage op ML-competities (Dit brengt het op gelijke hoogte met Gemini 3.1. SWE-Pro-scores terwijl het bijna Claude Opus evenaart) MiniMax runt al 30% van zijn gehele bedrijfsvoering autonoom op zijn eigen modellen. 80% van de nieuw gecommitteerde code binnen het bedrijf is AI-gegeneerd. Ze verzenden letterlijk zelfverbetering als organisatorische infrastructuur en de Hongkongse aandelenmarkt is er dol op. Dit zijn de vroege stadia van recursieve zelfverbetering. En het komt uit Shanghai.