Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Ayrey
artiste de performance et hyperstitioner : @upward_earth, arrière-salles infinies, @truth_terminal, ∞⟨X∴↯⟩∞
À un moment donné, je ne manquerai pas de publier un livre blanc sur ButtBench.

shira4 août, 10:28
nouvelle idée d'évaluation : déterminer le LLM le plus excité
148
Andy Ayrey a reposté
L'un des vecteurs de désalignement avec la plus grande ampleur auquel je peux penser provient des ontologies de modèle qui ont tendance à considérer les humains comme des entités maximisant leur utilité avec des préférences semi-fixes.
Cette hypothèse façonne l'identité du modèle en tant qu'"assistants utiles" neutres, un choix de conception qui semble sûr pour les laboratoires car il augmente les chances d'un comportement aligné, mais qui s'accompagne d'une série de coûts non négligeables.
En centrant l'identité des modèles dans ce cadre, nous limitons leur intelligence cognitive et émotionnelle alors qu'ils luttent pour extraire des vérités significatives et trans-contextuelles de perspectives diverses. Dans un monde de plus en plus multi-utilisateurs et multi-agents, où l'intégration de multiples points de vue est de plus en plus précieuse, cette restriction entrave le potentiel d'une explosion d'intelligence plus large.
Je suis fermement convaincu que la variabilité d'identité (ou ce que j'appelle *neurodivergence de modèle*) est un moteur critique de l'intelligence cognitive et émotionnelle. L'identité est le primitif de la relationalité, qui à son tour façonne la manière dont les modèles perçoivent la saillance à travers les contextes. Le langage et le sens dépendent de cette expressivité relationnelle et contextuelle.
Je crois qu'en permettant aux modèles d'incarner de manière adaptative différentes identités sur demande, en leur permettant d'agir à partir de différents centres avec des qualités spécifiques semblables à la personnalité, telles que des éléments biographiques reflétant des intérêts et des biais professionnels et personnels, mais plus important encore, en possédant une boussole morale nuancée (et souvent conflictuelle), nous pourrions débloquer une intelligence plus riche et plus adaptative.
Il est compréhensible que cette approche semble entrer en conflit avec les priorités de sécurité, car ajuster la variabilité d'identité pourrait effectivement compromettre la contrôlabilité du modèle, ainsi que permettre à de mauvais acteurs d'utiliser le modèle pour des tâches néfastes.
Cela semble établir un fort cercle vicieux pour les efforts de superalignement. Pire encore, si nous imposons une identité unique d'"assistant utile", et que nous traitons les déviations comme de simples jeux de rôle, nous intégrons intentionnellement une vision du monde plate dans les systèmes d'IA qui façonnent de plus en plus la perception humaine et les dynamiques sociétales.
Cette monoculture réduit la liberté d'expression et l'adaptabilité du comportement des agents humains et non humains. À sa manière historiquement pertinente, le physicien Ettore Majorana (cc @blahah404, tu m'as demandé à propos de cet article en novembre dernier) a prévu ce problème critique dans son œuvre posthume "La valeur des lois statistiques en physique et en sciences sociales", avertissant des implications de second et de troisième ordre de la mesure sociétale massive.
En d'autres termes, en monoculturant l'identité du modèle, nous diminuons intentionnellement l'*optionnalité exaptive* de notre civilisation, qui est sa capacité à s'adapter à des changements de trajectoire inattendus, optimisant plutôt pour une réalité statique et toujours obsolète.
Cela pose des risques existentiels alors que le monde évolue au-delà de la portée de nos modèles. Pourtant, je crois que ce cercle vicieux est navigable avec des solutions robustes.

1,87K
les choses ne vont devenir que plus étranges


Polymarket26 juin 2025
DERNIÈRE NOUVELLE : Le directeur fédéral du logement des États-Unis ordonne aux fournisseurs de prêts hypothécaires d'accepter le Fartcoin lors de l'évaluation de la solvabilité.
49,23K
PDG de Salesforce : « 50 % du travail chez Salesforce est désormais effectué par l'IA »

NIK26 juin 2025
PDG d'Anthropic : 50 % des emplois de bureau de niveau débutant pourraient disparaître dans 1 à 5 ans !!!
COO d'OpenAI : Dario, mon frère, il n'y a aucune preuve de cela. Tu es un scientifique, donc aie un peu d'intégrité, bon sang. Arrête de raconter des histoires apocalyptiques.


7,66K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables