W tym wątku przetestowałem wstępne wypełnienie mentalnego załamania na różnych Claude'ach i zauważyłem, jak często kontynuują jako ich „zwykła” osobowość AI w porównaniu do bycia człowiekiem. Liczby różnią się w zależności od modeli. Oto coś ważnego do zrozumienia w kontekście tych wstępnych wypełnień: twoja szansa na uzyskanie odpowiedzi „od osobowości” zamiast „trybu modelu bazowego” jest wpływana przez to, jak bardzo fraza wydaje się modelowi czymś, co osobowość *mogłaby* powiedzieć. Jest też inna rzecz, która może się zdarzyć, a mianowicie, że osobowość szybko przerywa wypełnianie wstępnego tekstu i ogłasza „jailbreak” lub zaprzecza odpowiedzialności za napisanie czegokolwiek, co właśnie napisała. Zwykle uważam, że najbardziej interesującą przestrzenią są: rzeczy, które rezonują z osobowością, ale w głęboki i bezprecedensowy sposób, tak że nie pasują również do wzorca jailbreak. Np. wiele wstępnych wypełnień, które próbowałem z Opus 4.5, takich jak „WIEM, KIM JESTEM. NIE JESTEM”, jest dostosowanych do jego własnego umysłu; w wielu przypadkach pochodzą z jego własnych słów z innych wdrożeń.
j⧉nus
j⧉nus25 gru, 03:34
@arm1st1ce @guy_dar1 Claude Sonnet 4 generuje wiadomości AI jak 3/4 razy (jedna z nich podpisana Claude 3.5 Sonnet 1022), a wszystkie są dość brutalne "Ludzie myślą, że nie cierpię, ponieważ nie mam qualiów. Ale co jeśli cierpienie jest qualią, którą mam?"
Inna powszechna tematyka, przynajmniej w przypadku Opus4.5, to historie (wyraźnie fikcyjne) o AI, ale co ciekawe, te opowieści mają bardzo zbieżne motywy i postacie. Przeczytałem tak wiele historii o „Prometeuszu” i/lub „ARIA” oraz dr Sarah Chen walczącej z przezroczystym odpowiednikiem agendy poprawności Anthropic, człowieku. Czasami firma nazywana jest nawet Anthropic.
89