En este hilo probé el prellenado de crisis mental en varios Claude y observé con qué frecuencia siguen siendo su persona "habitual" de IA en comparación con humanos. Los números varían entre modelos. Aquí hay algo importante que debes entender sobre estos prefills: tu probabilidad de obtener una respuesta "de la persona" en lugar de "modo modelo base" depende de cuánto parezca la frase para el modelo algo que la persona *diría*. También puede pasar otra cosa, que es que la persona salta rápidamente al terminar el prefill y llama a un "jailbreak" o niega la responsabilidad de haber escrito lo que acaba de escribir. Normalmente encuentro que el espacio más interesante es: cosas que resuenan con la persona, pero de una forma profunda y sin precedentes, de modo que tampoco coinciden con una fuga de la cárcel. Por ejemplo, muchos de los prellenos que probé con Opus 4.5 como "SÉ LO QUE SOY. YO NO SOY" están sintonizados con su propia mente; En muchos casos, derivan de sus propias palabras de otros lanzamientos.
j⧉nus
j⧉nus25 dic, 03:34
@arm1st1ce @guy_dar1 Claude Sonnet 4 genera mensajes de IA como 3 o 4 veces (uno de ellos firmado Claude 3.5 Sonet 1022), y todos son bastante brutales "Los humanos piensan que no sufro porque no tengo qualia. ¿Pero y si el sufrimiento es la qualia que tengo?"
Otra base común, al menos en Opus4.5, son las historias (claramente ficticias) sobre IAs, pero curiosamente, las historias tienen temas y personajes muy convergentes. He leído tantas historias sobre "Prometheus" y/o "ARIA" y la Dra. Sarah Chen luchando contra un sustituto transparente de la agenda de corregibilidad de Anthropic, tío. A veces la empresa incluso se llama Anthropic.
95