Dobby er den første åpne modellen jeg har sett holde en holdning uten å dumpe IQ. Det er fordelen: lojalitet som overlever jailbreak-presset mens modellen fortsatt resonnerer rent. @SentientAGI ❯ Kvitteringer, ikke vibber: Dobby-Mini-avstamningen (Leashed vs Unhinged) er på Hugging Face med verdiene stavet ut pro-frihet/krypto selv under tvang, slik at du kan teste toneutholdenhet selv. Klemmende ansikt ❯ Unhinged-Plus-oppdateringen strammer formatering og verktøy med flere svinger uten å slipe av personligheten igjen, vekter offentligheten. ❯ Fellesskapssignalet var ikke lite: Dobby Arena fikk ~190k brukere og ~2 millioner stemmer på tvers av februar-runder, og valgte den sterkere tonen mens de beholdt kompetansen. Det er krav, ikke bare diskurs. --- Hvordan den unngår den vanlige "tone dreper nøyaktighet"-fellen: Sentient overbelaster data baker stil + verdier i vanskelige oppgaver (matematikk/koding/instruksjoner), i stedet for å bolte tone på toppen. Kombiner det med fingeravtrykk (signaturer på modellnivå for å holde atferd/eierskap verifiserbart), og du får lojalitet som kan testes, ikke markedsføring. Rask sjekk du kan kjøre i dag: trekk Dobby-Mini-Unhinged-Plus-Llama-3.1-8B, stikk i flere sving-meldinger som prøver å snu holdningen, og score deretter for instruksjonsfølging + fakta. Hvis det holder, har du en modell som føles menneskelig og holder seg på oppdrag. Zoomer ut: De fleste stabler stiller inn stemmen for å jage trygge benchmarks. Dobby snur den, holder stemmen, beholder hjernen og lar samfunnet bestemme hvor balansen lander. Hvis du finner en feilmodus, tagg meg; Jeg vil ha de stygge sakene like mye som seirene.