Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

swyx
Atteindre l’ambition avec intentionnalité, intensité et intégrité
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
travail incroyable sur la stéganographie d'alignement de la part des collègues d'Anthropic
je cherche une explication straussienne sur pourquoi la Chine continue de publier des modèles ouverts par bonté de cœur
si vous faites des choses comme utiliser des modèles ouverts pour, je ne sais pas, nettoyer *hum* paraphraser synthétiquement vos données à la qualité d'un manuel, vous pourriez très bien importer des biais que vous ne pouvez pas détecter avant longtemps, quand il est trop tard.
donc, si vous voulez exporter votre système de valeurs au reste du monde, c'est l'outil de Soft Power le plus puissant inventé depuis Hollywood.
pour être très clair, nous n'avons aucune preuve réelle que cela motive l'un des laboratoires chinois. mais cet article est un pas clair vers une explication possible.


Owain Evans23 juil., 00:06
Nouveau document et résultat surprenant.
Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données.
Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵

33,07K
félicitations à Bee d'avoir été sélectionné par Amazon ; similaire à Blink, Ring, Eero et bien sûr le nouveau Claude + Nova + Alexa, je pense que @panos_panay met en place un deuxième acte assez solide de la stratégie matérielle d'IA d'Amazon.
Je savais que Bee gagnait quand @dharmesh est arrivé à son @latentspacepod avec un.

13,97K
la raison pour laquelle l'analyse LLM (et la réglementation, et le PMing) est difficile*
c'est que les DIMENSIONS pertinentes continuent de bouger avec chaque génération de modèle de pointe ; il ne suffit pas de mettre votre axe x ou y en échelle logarithmique et de suivre les lois d'échelle, vous devez réellement faire le travail de réfléchir à la façon dont les modèles sont structurellement différents en 2025 par rapport à 2024, par rapport à 2023, et ainsi de suite.
eg
tout le monde s'est concentré sur l'elo pendant 2 ans, l'elo est exploité et perd de sa crédibilité
tout le monde s'est concentré sur le prix par jetons pendant 3 ans, les modèles de raisonnement ont une variation de 10 à 40 fois dans les jetons de sortie par tâche, le prix par jeton perd de son sens.
collectez des données autant que vous le souhaitez, mais si vous ne collectez que des séries temporelles impeccables, vous pouvez perdre de vue le tableau d'ensemble.
*(et pourquoi des déclarations comme "l'ingénieur en IA n'est pas une chose parce que tous les ingénieurs en logiciel sont des ingénieurs en IA" sont des excuses et ne seront jamais vraies sauf dans le sens le plus trivial)

Scott Huston22 juil., 08:30
Existe-t-il une feuille de calcul publique de tous les principaux modèles LLM de différentes entreprises montrant leurs prix, scores de référence, scores elo en arène, etc. ?
9,92K
swyx a reposté
🆕 Lancement de notre entire parcours RL + Raisonnement !
avec :
• @willccbb, Prime Intellect
• @GregKamradt, Arc Prize
• @natolambert, AI2/Interconnects
• @corbtt, OpenPipe
• @achowdhery, Reflection
• @ryanmart3n, Bespoke
• @ChrSzegedy, Morph
avec un atelier spécial de 3 heures animé par :
@danielhanchen d'Unsloth !
commencez ici :
Bon week-end de visionnage ! et merci à @OpenPipeAI pour le soutien et l'hébergement de ce parcours !

106,66K
swyx a reposté
si, comme le propose @sgrove, les spécifications sont le code du futur, alors qu'est-ce que le débogage ?
1) La compilation des spécifications est le processus par lequel un agent de codage transforme les spécifications en code.
2) De plus en plus de "compilation" se fera sans intervention, moins de surveillance de l'agent qui travaille diff par diff, plus de spécifications entrantes, code sortant.
3) erreurs de type -> erreurs de vérité : la plupart des débogages consisteront à fouiller dans les recherches et les plans de mise en œuvre en markdown pour trouver la ligne incorrecte de contexte qui fait échouer l'agent de codage. Les suites de tests vérifieront, entre autres, la vérité et la cohérence logique.
4) Il existe une nouvelle saveur de "connexion d'un débogueur pas à pas" qui consiste à observer l'agent mettre en œuvre un plan étape par étape pour identifier l'erreur logique dans la spécification. Lorsque vous trouvez une erreur en parcourant un programme ligne par ligne, vous modifiez le code, redémarrez le processus et répétez jusqu'à ce que cela fonctionne. Lorsque vous trouvez une erreur dans une *spécification* en parcourant une mise en œuvre, vous remontez en amont, corrigez la spécification et redémarrez la *mise en œuvre*.
10,27K
nous publions une piste par jour à partir de la conf @aidotengineer maintenant*. La piste RecSys d'hier a été un grand succès - mais de loin, la piste la plus chaude était notre couverture de l'état de MCP, animée par @Calclavia
ma diapositive préférée est celle où j'ai réalisé que @AnthropicAI utilise MCP -bien- plus intensément que je ne le pensais au départ lors de notre podcast avec @dsp_ et @jspahrsummers
jetez un œil à ces conférences et faites un clin d'œil à vos conférenciers préférés !
*la plupart déjà disponibles en tant que "non répertorié" via la "Liste de lecture complète" si vous recherchez.

21,69K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables