Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analiza independentă a modelelor AI și a furnizorilor de găzduire - alegeți cel mai bun model și furnizor API pentru cazul dvs.
Alibaba a lansat Qwen3 Next 80B: un model de raționament hibrid cu greutăți deschise care atinge inteligența la nivel DeepSeek V3.1 cu doar 3 miliarde de parametri activi
Concluzii cheie:
💡 Arhitectură nouă: Primul model care a introdus modelele de fundație "Qwen3-Next" ale @Alibaba_Qwen, cu mai multe decizii cheie de arhitectură, cum ar fi un mecanism de atenție hibrid de Gated DeltaNet și Gated Attention și o rarețe ridicată cu o cotă de parametri activi de 3,8%, comparativ cu 9,4% pentru Qwen3 235B
🧠 Inteligență: Qwen3 Next 80B (Raționament) obține un scor de 54 la Artificial Analysis Intelligence Index, plasat alături de DeepSeek V3.1 (Raționament). Varianta non-raționamentală are un scor de 45, în conformitate cu gpt-oss-20B și Llama Nemotron Super 49B v1.5 (Raționament)
💲 Model de prețuri: Prețul per token pe @alibaba_cloud este de 0,5 USD/6 USD per 1 milion de tokenuri de intrare/ieșire pentru raționament și 0,5 USD/2 USD pentru varianta fără raționament. Acest lucru se compară cu prețurile mai mari pentru Qwen3 235B 2507 de 0,7 USD/8,4 USD cu raționament și 0,7 USD/2,8 USD fără - o reducere de ≥25% în funcție de sarcinile de lucru
⚙️ Detalii despre model: Modelul are o fereastră de context nativ de 256k de jetoane și este doar text, fără intrări sau ieșiri multimodale. La doar 80B parametri la FP8, modelul se potrivește pe un singur GPU H200

197
Lansarea sondajului nostru State of Generative Media 2025 susținut de @fal! Participă pentru a primi raportul complet al sondajului și pentru a câștiga o pereche de Meta Ray-Ban-uri 🕶️
Efectuăm sondajul pentru a aduna informații despre starea Generative Media în 2025. Aceasta include perspective asupra modului în care organizațiile folosesc, aleg și accesează modelele de imagine, video și muzică!
De ce să participați?
✅ Primiți o copie gratuită a raportului de sondaj extins (doar o versiune limitată va fi disponibilă publicului)
✅ Șansa de a câștiga o pereche de ochelari Ray-Ban Meta AI 🕶️
✅ Contribuiți la schimbul de informații despre tendințele cheie care modelează Generative Media
Link în subiectul de mai jos! ⬇️⬇️⬇️⬇️⬇️⬇️⬇️
250
DeepSeek lansează V3.1, unificând V3 și R1 într-un model de raționament hibrid cu o creștere incrementală a inteligenței
Creșterea incrementală a inteligenței: Rezultatele inițiale ale benchmarking-ului pentru DeepSeek V3.1 arată un indice de inteligență de analiză artificială de 60 în modul de raționament, în creștere de la scorul R1 de 59. În modul non-raționament, V3.1 obține un scor de 49, o creștere mai mare față de scorul anterior V3 0324 de 44. Acest lucru lasă V3.1 (raționament) în spatele celui mai recent Qwen3 235B 2507 (raționament) al Alibaba - DeepSeek nu a preluat conducerea.
Raționament hibrid: @deepseek_ai trecut pentru prima dată la un model de raționament hibrid - acceptând atât modurile de raționament, cât și cele de non-raționament. Trecerea DeepSeek la un model de raționament hibrid unificat imită abordarea adoptată de OpenAI, Anthropic și Google. Este interesant de remarcat, totuși, că Alibaba a abandonat recent abordarea hibridă pe care o preferau pentru Qwen3 cu lansările lor separate ale modelelor Qwen3 2507 de raționament și instruire.
Apelarea funcției / utilizarea instrumentului: În timp ce DeepSeek pretinde că a îmbunătățit apelarea funcției pentru model, DeepSeek V3.1 nu acceptă apelarea funcției atunci când este în modul de raționament. Acest lucru este probabil să limiteze substanțial capacitatea sa de a susține fluxurile de lucru agentice cu cerințe de informații, inclusiv în agenții de codificare.
Utilizarea token-urilor: DeepSeek V3.1 are un scor incremental mai mare în modul de raționament decât DeepSeek R1 și folosește puțin mai puține token-uri în evaluările pe care le folosim pentru Artificial Analysis Intelligence Index. În modul non-raționament, folosește puțin mai multe jetoane decât V3 0324 - dar totuși de câteva ori mai puține decât în propriul său mod de raționament.
API: API-ul primar al DeepSeek servește acum noul model DeepSeek V3.1 atât pe chat, cât și pe endpoint-urile de raționament - pur și simplu schimbând dacă tokenul de gândire finală </think> este furnizat modelului în șablonul de chat pentru a controla dacă modelul va raționa.
Arhitectură: DeepSeek V3.1 este identic din punct de vedere arhitectural cu modelele anterioare V3 și R1, cu 671 miliarde de parametri totali și 37 miliarde de parametri activi.
Implicații: Vă sfătuim să fiți precauți atunci când faceți presupuneri despre ceea ce implică această versiune despre progresul DeepSeek către un model viitor denumit în zvonuri V4 sau R2. Observăm că DeepSeek a lansat anterior modelul final construit pe arhitectura lor V2 pe 10 decembrie 2024, cu doar două săptămâni înainte de lansarea V3.


496
Limită superioară
Clasament
Favorite