Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dr.PR
🕶️ | no es un Dr. de verdad | Todas mis publicaciones son una tontería | #DYOR #NFA
Arrodíllate y lee el último artículo de deepseek ()
Tomemos una comprensión superficial y todos corregirán lo que está mal
Este estudio (mHC) proporciona esencialmente una solución de actualización de modelos de "bajo coste y alto rendimiento" para la industria de la IA.
Efecto del modelo: Mejora significativamente la "capacidad de pensamiento". Más inteligente: el mHC mejora significativamente la potencia de procesamiento de la IA sin cambiar la infraestructura del modelo. En pruebas que reflejan razonamiento lógico y comprensión lectora, como BBH y DROP, el rendimiento mejora entre un 2,1% y un 2,3%. Esto significa que el modelo se comportará más como un "experto" que como un "repetidor" al tratar tareas como lógica empresarial compleja, análisis financiero, etc.
Coste de entrenamiento: Pérdida de rendimiento extremadamente baja a cambio de alta rentabilidad Rentable: Aunque esta nueva tecnología aumenta el ancho de transmisión de información, mediante una optimización colaborativa profunda de software y hardware, el coste temporal de entrenar un modelo grande con 27 mil millones de parámetros solo aumenta aproximadamente un 6,7%. Para los inversores, esto significa intercambiar una cantidad muy pequeña de electricidad y potencia de cálculo adicional por un rendimiento de modelo de orden superior.
Estabilidad en el entrenamiento: Evitar pérdidas de activos causadas por el "colapso del entrenamiento" y despedirse de las máquinas muertas: Aunque intentos similares (como HC) también han intentado ampliar la vía de información, debido a la falta de restricciones, los modelos grandes a menudo "se vuelven locos" o se bloquean (saltos de pérdida) en medio del entrenamiento, lo que resulta en el desperdicio de valiosos recursos informáticos. mHC utiliza "hechizos de equilibrio" matemáticos (restricciones de variedad) para asegurar que el modelo sea extremadamente robusto durante el entrenamiento, protegiendo las costosas inversiones en potencia de cálculo frente a colapsos sistémicos.
Requisitos de memoria: soluciones ingeniosas a los "cuellos de botella de hardware" mediante algoritmos Uso inteligente de la memoria: Esta tecnología amplía el "carril" de información en 4 veces, lo que teóricamente consumirá mucha memoria. Pero DeepSeek ahorra mucho espacio de memoria con un poco más de tiempo de cálculo mediante una técnica llamada "recálculo selectivo". Esto permite que las tarjetas gráficas de gama alta existentes como la H100/H200 ejecuten esta arquitectura más compleja sin aumentar los costes de hardware.
Potencial futuro: Romper el límite superior tradicional de las "máquinas de montón" Nuevos puntos de crecimiento: Anteriormente, mejorar los efectos del modelo se basaba principalmente en los "datos de montón" y la "GPU de montón". mHC abre un tercer camino: optimizar el esqueleto interno del modelo. Demuestra que, al mejorar la conexión entre capas, se pueden exprimir continuamente más dividendos de rendimiento incluso si el tamaño del modelo no se incrementa ciegamente.
Analogía desde la perspectiva de los inversores: si el modelo grande es una fábrica, entonces la mejora anterior fue aumentando el número de trabajadores (aumentando los parámetros). mHC, por otro lado, reorganiza las líneas de montaje y los canales logísticos de la fábrica sin aumentar el número de estaciones de trabajo. No solo ensancha la cinta transportadora varias veces para transportar más piezas, sino que también asegura que la fábrica no detenga la producción debido a la congestión logística mediante un sofisticado sistema de gestión del tráfico. El resultado final es un aumento significativo en la eficiencia de la planta, mientras que los costes de electricidad y mantenimiento de equipos permanecen prácticamente sin cambios.

481
Populares
Ranking
Favoritas
