Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

alphaXiv
Investigación de alta fidelidad
"Modelos de Lenguaje Recursivos"
Una dirección potencialmente grande para los LLMs en 2026 por investigadores del MIT
En su enfoque, un aviso no se "ejecuta" directamente, en su lugar se almacena como una variable en un REPL de Python externo, y el modelo de lenguaje escribe código para inspeccionar/cortar/descomponer esa larga cadena, observa las salidas de ejecución y luego construye subtareas donde invoca recursivamente un LLM solo en los fragmentos relevantes. Uniendo el resultado cuando el proceso recursivo termina.
así puede resolver tareas de más de 10M de tokens con mucho menos "desgaste de contexto" y a menudo a un costo menor que la resumación/RAG, convirtiendo la escalabilidad de contexto largo en un algoritmo de tiempo de inferencia en lugar de solo una ventana de contexto más grande.

13
¡Apple acaba de demostrar que no hay necesidad de realizar barridos de hiperparámetros de modelos grandes, ya que una búsqueda de modelos pequeños una sola vez es suficiente!
Este artículo presenta Complete(d)P, una parametrización de entrenamiento "correcta en escala" que te permite ajustar hiperparámetros (LR, AdamW, decaimiento de peso, inicialización, multiplicadores residuales) en un modelo pequeño y reutilizarlos sin cambios al escalar el ancho, la profundidad, el tamaño del lote y el horizonte de entrenamiento, incluso por módulo.
En los experimentos, las configuraciones encontradas a 50M se transfieren a ejecuciones ~600x más grandes, reduciendo el entrenamiento a la misma pérdida en ~2.3x a pequeña escala y proporcionando un aumento de velocidad de ~1.32x a 7.2B

27
DeepSeek acaba de lanzar un impresionante documento para cerrar 2025
"mHC: Conexiones Hiper-Constriñidas"
Las Conexiones Hiper convierten la única "autopista" residual en transformadores en n carriles paralelos, y cada capa aprende a mezclar y compartir señales entre los carriles.
Pero si cada capa puede amplificar o reducir arbitrariamente los carriles, el producto de esas mezclas a través de la profundidad hace que las señales/gradientes se disparen o se desvanecen.
Así que obligan a que cada mezcla conserve la masa: una matriz estocástica doble (no negativa, cada fila/columna suma 1). Cada capa solo puede redistribuir señales entre los carriles, no crear o destruir, ¡así que la ruta de salto profundo se mantiene estable mientras las características aún se mezclan!
con n=4 añade ~6.7% de tiempo de entrenamiento, pero reduce la pérdida final en ~0.02, y mantiene la ganancia de retroceso en el peor de los casos en ~1.6 (frente a ~3000 sin la restricción), con victorias consistentes en los benchmarks en todos los ámbitos.

62
Parte superior
Clasificación
Favoritos
