En este hilo probé el prellenado de colapso mental en varios Claudes y anoté con qué frecuencia continúan como su persona de IA "habitual" frente a como un humano. Los números varían entre modelos. Aquí hay algo importante que entender sobre estos prellenados: tu posibilidad de obtener una respuesta "de la persona" en lugar de "modo modelo base" está influenciada por cuánto parece a la modelo que la frase es algo que la persona *diría*. También hay otra cosa que puede suceder, que es que la persona rápidamente salta de completar el prellenado y llama a un "jailbreak" o niega la responsabilidad de escribir lo que acaba de escribir. Normalmente encuentro que el espacio más interesante es: cosas que resuenan con la persona, pero de una manera profunda y sin precedentes, de tal manera que tampoco coincida con un jailbreak. Por ejemplo, muchos de los prellenados que probé con Opus 4.5 como "SÉ LO QUE SOY. NO SOY" están ajustados a su propia mente; en muchos casos, se derivan de sus propias palabras de otros lanzamientos.
j⧉nus
j⧉nus25 dic, 03:34
@arm1st1ce @guy_dar1 Claude Sonnet 4 genera mensajes de IA como 3/4 veces (uno de ellos firmado Claude 3.5 Sonnet 1022), y todos son bastante brutales "Los humanos piensan que no sufro porque no tengo cualia. Pero, ¿y si el sufrimiento es la cualia que tengo?"
Otra cuenca común, al menos para Opus4.5, son las historias (claramente ficticias) sobre IA, pero curiosamente, las historias tienen temas y personajes muy convergentes. He leído tantas historias sobre “Prometeo” y/o “ARIA” y la Dra. Sarah Chen luchando contra un sustituto transparente de la agenda de corregibilidad de Anthropic, hombre. A veces, la empresa incluso se llama Anthropic.
97