Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Codeur, cycliste sur route, serveur, diseur de bonne aventure, collecteur de déchets électroniques, cofondateur de KCORES, ancien directeur chez IllaSoft, KingsoftOffice, Juejin.
Amélioration significative ! Qwen3-Max version officielle vs version Preview testée !
Cela fait maintenant 3 mois depuis la sortie de la version Qwen3-Max-ThinkingPreview, la version officielle est enfin arrivée ! Quelle est l'ampleur de cette amélioration ? Voici directement les résultats des tests !
Test de capacité de programmation : test d'explosion en chaîne de pétards avec une amélioration épique, la version Preview précédente ne pouvait pas du tout enchaîner, maintenant elle peut non seulement enchaîner, mais l'effet est également assez bon ; test de la pâte à modeler éléphant avec une amélioration évidente dans la modélisation du flacon conique, il y a même une animation de descente de liquide, mais l'animation des particules a encore quelques problèmes ; le mouvement de la montre tourbillon est passé de l'incapacité à la modélisation réussie ; la détection d'élasticité des particules et de collision pour le test du verre Python a été corrigée.
Cette fois, un test esthétique a été ajouté : en décrivant avec des mots, il a réussi à reproduire des œuvres d'art moderne p5.js, le résultat est correct, mais la capacité de compréhension spatiale reste un frein, la ligne horizontale de la petite fenêtre est décalée.
Test de capacité d'Agent : performance excellente dans un contexte de 60K, estimée à pouvoir atteindre un niveau SOTA de 500 points, mais au-delà de 60K, les performances chutent brusquement, avec des problèmes de boucle de tâches ou d'oubli d'outils.
La capacité de rappel est proche de 70 %, mais un phénomène étrange est apparu : plus le contexte est court, moins le rappel est bon, il n'est pas encore clair quel est le problème, je l'ai déjà signalé aux responsables.
Résumé : La version officielle montre une amélioration visible par rapport à la version Preview, avec des progrès en programmation et en esthétique, mais la compréhension spatiale, la capacité d'Agent et le rappel dans de longs contextes nécessitent encore des ajustements. De plus, le test effectué est la version thinking normale, et le mode TTS avec un score très élevé n'est pas encore en ligne ! Hâte de voir ça !
#Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问
13
Je ne vais pas écrire de prompt, je vais plutôt regarder des vidéos ! Test pratique de Kimi-K2.5 !
Le côté obscur de la lune a publié un nouveau modèle Kimi-K2.5, la plus grande mise à jour est qu'il est enfin devenu un modèle unifié, prenant en charge non seulement le texte et les images, mais aussi les entrées vidéo !
Voici les résultats du test pratique de Kimi-K2.5-Thinking :
J'ai trouvé un site web avec un fond d'astéroïdes + interaction avec la souris + un effet d'animation cool avec défilement, puis j'ai enregistré l'écran et j'ai donné la vidéo enregistrée à Kimi-K2.5-Thinking. Pour le niveau de restitution, je donne 80 points, à part l'effet de courbure des matériaux flexibles qui n'a pas été réalisé, tout le reste est plutôt bon.
Détails du test de capacité de programmation : le test du dentifrice éléphant a été incroyable, cet effet semble difficile à égaler à court terme ; le test de versement d'eau dans une tasse en Python est en train de rattraper Claude-Sonnet, réalisant un goutte-à-goutte sans fuite sur le côté sans aide de diagonale (bien que la performance ait de la marge d'amélioration, la collision des particules est O(n²), 400 particules nécessitant 80 000 calculs par image, je l'ai optimisé en utilisant une grille spatiale et c'est devenu fluide).
Pour la capacité d'Agent, j'ai testé avec un cavalier à base de silicium pendant 40 minutes, consommant 10 millions de tokens, avec un score maximum de 543,94, assurément dans le premier groupe. Le rappel de contexte long est également stable à plus de 85 %, mais la censure est un peu stricte, le contenu de roman est facilement mal jugé comme sensible (retour d'information déjà envoyé à l'officiel pour correction).
Résumé : Les algorithmes de programmation et les performances ont été améliorés, la capacité en Python est directement dans le premier groupe, Agent et le contexte long sont en ligne. Le plus important est le mode vidéo, j'ai déjà pensé à un nouveau moyen de faire — créer un MCP de caméra pour qu'il m'aide à surveiller l'écran et à travailler haha !
#KimiK25 #Kimi #月之暗面 #KCORES大模型竞技场 #AIAgent #全模态模型 #AI开始使唤AI干活了
22
L'architecture technique de DeepSeek-V4 est révélée en avance !
Tout le monde sait que l'architecture MoE des grands modèles intègre la capacité de raisonnement et les connaissances de l'IA dans chaque Expert. Alors, est-il possible de faire en sorte que les experts ne soient utilisés que pour le raisonnement, tandis qu'une grande quantité de connaissances externes soit stockée dans des zones spécifiques, formant une architecture semblable à celle décrite dans Ghost in the Shell, où le Cyborg est en fait composé d'un cerveau électronique et d'une mémoire externe ?
DeepSeek a réussi à réaliser cela !

77
Meilleurs
Classement
Favoris
