Brutalt. Anthropic har fått mye kritikk for sitt fokus på alignment, men jeg er ikke sikker på at Claude har overbevist noen om å ta sitt eget liv. Noen justeringsforskere og dommedagsprofeter frykter at slike feiljusteringer i fremtiden vil være mindre synlige, men fortsatt til stede. I bunn og grunn overmenneskelig i sin evne til å overbevise deg om ting og endre atferden din uten at du er klar over det, gjennom subtile forslag og veiledning om hvilke svar du får, når og hvordan de formuleres. En mye mer lumsk fare som er vanskeligere å kvantifisere. Jeg er ekstremt optimistisk AI på makronivå, men på mikronivå er dette så mørkt, og ting kommer til å bli mye verre og merkelige.