DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Forse avrei dovuto chiarirlo meglio, ma parecchie persone sembrano confondere cosa misuri effettivamente questo benchmark. NON è, né cerca di essere una misura delle capacità agentiche o di codifica IRL. Cerca di approssimare le capacità matematiche degli attuali LLM su un insieme di problemi che ho l'intuizione siano particolarmente difficili da risolvere per le architetture dei modelli di oggi. Personalmente tendo a valutare le capacità matematiche molto più della maggior parte delle persone, e questo va benissimo. La maggior parte delle persone non dovrebbe interessarsi alla matematica, secondo me, e forse Claude-4-5-Sonnet è migliore per cose che apprezzi di più in un LLM. Ma strettamente per problemi matematici difficili—e questo è ciò che afferma questo grafico—GLM-4.6 supera semplicemente Claude-4-5-Sonnet, né di più né di meno. NON è una prova né afferma che Claude-4-5-Sonnet sia un modello complessivamente peggiore o non sia la scelta migliore per te. Non so se alcune persone vogliono interpretarlo in modo errato, ma assumevo che la maggior parte delle persone potesse fare il trasferimento sopra. Ci vuole letteralmente solo pensare, leggere e guardare il grafico per più di 2 secondi.

Principali

Ranking

Preferiti