Ny forskningsartikkel med Anthropic and Thinking Machines AI-selskaper bruker modellspesifikasjoner for å definere ønskelig atferd under opplæring. Uttrykker modellspesifikasjonene tydelig hva vi vil at modellene skal gjøre? Og har forskjellige grensemodeller forskjellige personligheter? Vi genererte tusenvis av scenarier for å finne ut av det. 🧵