🚨 ULTIMA ORĂ: Cercetătorii Meta au arătat unui model 2 milioane de ore de video. Fără etichete. Niciun manual de fizică. Nicio supraveghere deloc. Apoi i-au arătat un clip în care un obiect dispare în spatele unui perete și nu se mai întoarce niciodată. Modelul l-a marcat ca fiind greșit. 🤯 Învățase permanența obiectelor. Consistența formei. Dinamica coliziunilor. Complet din privit. Ce este și mai surprinzător: chiar și un model antrenat pe doar o săptămână de video unic a obținut performanțe peste șanse la detectarea încălcărilor fizice. Nu e o întâmplare. Asta e un principiu. Ideea cheie din lucrare este că acest lucru funcționează doar atunci când modelul prezice într-un spațiu de reprezentare învățat, nu în pixeli bruti. Modelul trebuie să construiască un model intern al lumii, comprimat și abstract, și să prezică împotriva acestuia. Predicția în spațiul pixelilor eșuează. LLM-urile multimodale care raționează prin text eșuează. Doar arhitectura care construiește reprezentări abstracte în timp ce prezice lipsa inputului senzorial, ceva apropiat de modul în care neurocercetătorii descriu codarea predictivă, dobândește cu adevărat intuiția fizicii. Ceea ce înseamnă că cunoștințele de bază pe care cercetătorii le presupuneau că trebuie să fie încorporate ar putea fi doar observație la scară largă. Bebelușii învață permanența obiectelor uitându-se la lucruri. Se pare că același principiu este valabil și aici. Acum e partea despre care nimeni nu vorbește. Dacă observația singură învață un model regulile lumii fizice, ce se întâmplă când aplici același principiu sistemelor de producție? Producția are și fizică. Nu gravitația. Dar reguli la fel de consistente: care implementări provoacă incidente la 3 dimineața, ce combinații de configurație interacționează periculos, ce căi de cod se degradează silențios sub încărcare, ce modificări de serviciu cauzează eșecuri la două sărituri distanță. Aceste modele sunt încorporate în mii de traiectorii. Push de cod, schimbări metrice, tichete de clienți, cronologii incidentelor. În mare parte neobservat. Cu siguranță fără etichete. Nimeni nu scrie un runbook care să spună "dacă serviciul A se implementează cu flag X activ și serviciul B depășește 70% CPU, latența pe serviciul C scade cu 40% în 6 minute." Dar acest tipar există. Este repetabil. Și stă acum în datele tale de observabilitate, invizibil pentru că nimeni nu a construit un model pentru a-l găsi. Aceasta este diferența pe care @playerzeroai încearcă să o reducă. Nu încă un alergător de teste. Nu un alt prag de alertă. Un model de lume de producție care învață ce lucruri se rup din observația acumulată, la fel cum modelul lui Meta a învățat gravitația. Nu verifică acoperirea testului. Prezice traiectoriile de cedare. O săptămână de video a fost suficientă pentru a învăța că obiectele solide nu trec prin pereți. Întrebarea este câtă observație de producție are nevoie sistemul tău înainte ca un model să înceapă să prezică unde va ceda al tău data viitoare. ...