Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Tal vez debería haber dejado esto más claro, pero bastantes personas parecen confundir lo que realmente mide este punto de referencia. NO lo es, ni intenta ser una medida de las capacidades de codificación agentic o IRL. Intenta aproximarse a las capacidades matemáticas de los LLM actuales en un conjunto de problemas que tengo la intuición de que son particularmente difíciles de resolver para las arquitecturas de modelos actuales. Personalmente, tiendo a valorar las capacidades matemáticas mucho más que la mayoría de las personas, y esto está totalmente bien. A la mayoría de la gente no debería importarle las matemáticas en mi opinión y tal vez Claude-4-5-Sonnet sea mejor para las cosas que valoras más en un LLM. Pero estrictamente para problemas matemáticos complicados, y esto es lo que afirma este gráfico, GLM-4.6 simplemente supera a Claude-4-5-Sonnet, ni más ni menos. NO es evidencia, ni afirma, que Claude-4-5-Sonnet sea un modelo peor en general o que no sea la mejor opción para usted. No sé si algunas personas quieren interpretarlo mal, pero asumí que la mayoría de las personas pueden hacer la transferencia anterior. Literalmente, solo se necesita pensar, leer y mirar el gráfico durante más de 2 segundos.

Populares

Ranking

Favoritas