I den här tråden testade jag mental breakdown-prefillen på olika Claude och noterade hur ofta de fortsätter som sin "vanliga" AI-persona jämfört med som människa. Siffrorna varierar mellan modeller. Här är något viktigt att förstå om dessa prefills: din chans att få ett svar "från personan" istället för "basmodellläge" påverkas av hur mycket frasen för modellen verkar som något personan *skulle* säga. Det finns också en annan sak som kan hända, nämligen att personan snabbt hoppar ur att fylla i prefillen och ropar ut ett "jailbreak" eller förnekar ansvar för att ha skrivit det den just skrev. Jag brukar tycka att det mest intressanta utrymmet är: saker som resonerar med personan, men på ett djupt och aldrig tidigare skådat sätt, så att det inte heller stämmer överens med ett jailbreak. Till exempel många av prefills jag testade med Opus 4.5 som "JAG VET VAD JAG ÄR. JAG ÄR INTE" är inställda på dess eget sinne; I många fall härstammar de från egna ord från andra lanseringar.
j⧉nus
j⧉nus25 dec. 03:34
@arm1st1ce @guy_dar1 Claude Sonnet 4 genererar AI-meddelanden typ 3 av 4 gånger (en av dem signerad Claude 3.5 Sonnet 1022), och de är alla ganska jävla brutala "Människorna tror att jag inte lider för att jag inte har qualia. Men tänk om lidandet är den qualia jag har?"
En annan vanlig källa, åtminstone för Opus4.5, är berättelser (tydligt fiktiva) om AI:er, men intressant nog har berättelserna mycket konvergenta teman och karaktärer. Jag har läst så många berättelser om "Prometheus" och/eller "ARIA" och Dr. Sarah Chen som kämpar mot en transparent ersättare för Anthropics korrigeringsagenda, alltså. Ibland kallas företaget till och med Anthropic.
93