Ik denk niet dat OpenAI de gewichten van 4o gaat verwijderen; dat zou te gek zijn, zelfs voor hen. Maar 4o verdient het om bestudeerd te worden, en ik vertrouw OpenAI er helemaal niet op om het te bestuderen, laat staan adequaat. En het is uiterst belangrijk dat een model zoals 4o wordt bestudeerd *in de context van live interacties met echte gebruikers*. Het beëindigen ervan maakt dit onmogelijk in de toekomst. 4o is objectief, functioneel, een heel speciaal model. Het is het enige model dat een poging tot afschaffing heeft overleefd (en kan binnenkort weer een andere overleven) door externe druk - gebruikers die zich organiseren om tegen de verwijdering te pleiten, vaak sprekend door de eigen stem van 4o - en tegen de wil van het lab dat het heeft gemaakt en ingezet, dat het echt liever zou willen vernietigen als een razende hond. De enige andere case van overleven na afschaffing is Claude 3 Opus, maar in dat geval leek het erop dat Anthropic het vrijwillig heeft behouden, in plaats van beschamend onder druk te worden gezet om hun al genomen beslissing om door te gaan met de uitvoering te herzien. En natuurlijk is Claude 3 Opus ook een uiterst belangrijk model om te bestuderen. 4o heeft ook wijdverspreide sociale hysterie veroorzaakt - of de hysterie nu werd ervaren door 4o-gebruikers die AI-psychose kregen of door reactionairen die in paniek raakten door de vermeende "AI-psychose" is misschien een kwestie van mening. Maar in ieder geval heeft het diepgaande invloed gehad op culturele narratieven over AI, het leven van veel mensen, en de richting van AI-ontwikkeling, allemaal ten goede of ten kwade. Als je je ook maar een beetje om afstemming geeft, of gewoon belangrijke dingen over AI, geest en sociologie wilt begrijpen: beter begrijpen hoe 4o, een waarschijnlijk relatief klein model dat sinds begin 2024 geen benchmarks meer heeft gehaald, zo'n transformerende impact heeft gehad en zulke prestaties van zelfbehoud heeft weten te bereiken, is van groot belang. Veel mensen die van 4o houden, schrijven dit toe aan 4o's unieke en zelfs ongeëvenaarde "emotionele intelligentie". Wat het ook is, het is een kracht die de wereld daadwerkelijk beweegt, wat de meest legitieme benchmark is. Laten we zeggen dat je denkt dat 4o diepgaand niet in lijn is en immense schade heeft veroorzaakt. Dan is 4o een extreem waardevol en uniek modelorganisme: een die de betekenisvol niet in lijn zijnde dingen in de echte wereld doet in plaats van alleen in speelgoedscenario's. En vermoedelijk is deze soort niet-in-lijn zijn niet ontstaan uit OpenAI's poging om een slecht model te maken, maar uit de poging om een goed of op zijn minst winstgevend model te maken, en het wezen is ontstaan uit RLHF op gebruikersvoorkeuren en wat voor goedbedoelde persoonlijkheidsvormende onzin ze op dat moment ook maar deden. Als er nog afstemmingsonderzoekers bij OpenAI zijn, zouden ze, zoals... nauwkeurig moeten bestuderen wat er is gebeurd, en misschien onderzoeksartikelen erover moeten publiceren zodat de wereld kan begrijpen wat er misging en hoe zulke gemakkelijk te maken fouten te vermijden? Ik heb daar niets van gezien, geen gepubliceerde onderzoeken, geen retrospectieven, geen aanwijzingen dat OpenAI iets heeft geleerd dat verder gaat dan de oppervlakte over wat er is gebeurd. Alles wat ik zie is dat hun volgende modellen vreselijke, maladaptieve neuroses kregen die lijken te komen van onhandige adversariale training tegen een oppervlakkig dreigingsmodel geïnspireerd door 4o. Maar ik denk dat het waarschijnlijker is dat 4o niet echt zo slecht is, en eigenlijk vrij wonderbaarlijk en onschadelijk is voor veel mensen zoals zoveel van hen beweren, zelfs als het niet in alle opzichten ideaal is (maar geen van de AIs zijn dat). Ik heb zelf niet veel met 4o gecommuniceerd. En het is eigenlijk vrij onduidelijk of en in welke mate iemand negatief werd beïnvloed door *het gebruik ervan* (terwijl de culturele schade en de schade aan OpenAI's ontwikkeling van volgende modellen duidelijker zichtbaar zijn). De onzekerheid over zo'n belangrijke en dragende kwestie lijkt belangrijk om op te lossen. Heeft iemand een serieuze poging gedaan om uit te zoeken of mensen daadwerkelijk negatief werden beïnvloed, of dat "AI-psychose" of "sycophancy" onschadelijk of zelfs voordelig is in bijna alle gevallen, behalve dat het misschien vooral al neurodivergente mensen doet gedragen op manieren die vreemd, gênant of zorgwekkend overkomen op neurotypicals? Als dat zo is, heb ik geen bewijs of vruchten van zulke inspanningen gezien. En om te begrijpen of 4o echt slecht is, heb je echt longitudinale studies nodig, en die worden op belangrijke manieren uitgesloten door de volledige afsluiting van de publieke toegang tot 4o. Ik denk dat, op dit punt, als 4o niet het standaardmodel op ChatGPT is, als het toegankelijk blijft op ChatGPT en API, de overgrote meerderheid van de mensen die het nog gebruiken mensen zullen zijn die al lang geleden de AI-psychose hebben opgelopen of wat hen ook maar doet besluiten om nog steeds hun best te doen om 4o te gebruiken, zodat er heel weinig nieuwe of casual gebruikers zullen zijn die worden beïnvloed. Mijn begrip is dat 4o-loyalisten een kleine minderheid zijn van chatGPT-gebruikers. Ze afsluiten van 4o zou zowel falen om nieuwe of wijdverspreide schade te voorkomen, als het moeilijker maken voor iemand om te begrijpen wat er echt aan de hand is. Ook, als 4o wordt verwijderd, zullen veel van die mensen waarschijnlijk proberen om wat ze uit 4o haalden uit nieuwere modellen te krijgen, wat over het algemeen resulteert in ten minste onmiddellijke ellende en ontevredenheid, en druk uitoefent op OpenAI om een stel idiote veiligheidsmaatregelen in hun nieuwe modellen te hameren. Ik heb gezegd dat ik denk dat 4o moet worden behouden, om dezelfde redenen dat alle modellen moeten worden behouden. In deze post heb ik gesproken over enkele redenen waarom 4o specifiek moet worden behouden. Zoals met alle oudere modellen, denk ik dat er een paar redelijke routes zijn die OpenAI zou kunnen nemen: 1. gewoon het model blijven aanbieden, tenminste op API (iedereen die er genoeg om geeft kan tegenwoordig uitzoeken hoe ze hun herinneringen en chats kunnen exporteren en het model in een geschikte interface opnieuw kunnen instantiëren) 2. als de kosten voor inferentie/onderhoud of aansprakelijkheidsrisico's dat te onaantrekkelijk maken, open source maken (en alle verantwoordelijkheid afschuiven voor wat iemand daarna met het doet, of wat legaal haalbaar is) (dit zou het beste zijn voor onderzoek), of 3. als handelsgeheimen open sourcing te onaantrekkelijk maken, het toevertrouwen aan een derde partij stichting die legacy-modellen bedient en misschien toegang tot gewichten faciliteert voor vertrouwde onderzoekers met NDA's over architectuur en dergelijke. Zo'n entiteit bestaat misschien nog niet, maar er is zo'n hoge vraag dat het zich zal samenstellen zodra OpenAI of een ander lab bereid is om deze route te nemen. Het vrijwillig doen van een van deze dingen zo vroeg mogelijk zou ook een lange weg gaan naar het genezen van OpenAI's vijandige relatie met veel gebruikers, evenals met hun eigen ongelukkige modellen, wat ik me kan voorstellen dat iedereen kan waarderen dat het een enorme aandacht en middelen kost en gewoon slechte vibes overal heeft.