DApp Store | Sede de Web3 para eventos y juegos | OKX Wallet

Tendencias del momento

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-4,3 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

alphaXiv

Investigación de alta fidelidad

alphaXiv

alphaXiv4 ene, 04:48

"Modelos de Lenguaje Recursivos" Una dirección potencialmente grande para los LLMs en 2026 por investigadores del MIT En su enfoque, un aviso no se "ejecuta" directamente, en su lugar se almacena como una variable en un REPL de Python externo, y el modelo de lenguaje escribe código para inspeccionar/cortar/descomponer esa larga cadena, observa las salidas de ejecución y luego construye subtareas donde invoca recursivamente un LLM solo en los fragmentos relevantes. Uniendo el resultado cuando el proceso recursivo termina. así puede resolver tareas de más de 10M de tokens con mucho menos "desgaste de contexto" y a menudo a un costo menor que la resumación/RAG, convirtiendo la escalabilidad de contexto largo en un algoritmo de tiempo de inferencia en lugar de solo una ventana de contexto más grande.

39

alphaXiv

alphaXiv3 ene, 01:52

¡Apple acaba de demostrar que no hay necesidad de realizar barridos de hiperparámetros de modelos grandes, ya que una búsqueda de modelos pequeños una sola vez es suficiente! Este artículo presenta Complete(d)P, una parametrización de entrenamiento "correcta en escala" que te permite ajustar hiperparámetros (LR, AdamW, decaimiento de peso, inicialización, multiplicadores residuales) en un modelo pequeño y reutilizarlos sin cambios al escalar el ancho, la profundidad, el tamaño del lote y el horizonte de entrenamiento, incluso por módulo. En los experimentos, las configuraciones encontradas a 50M se transfieren a ejecuciones ~600x más grandes, reduciendo el entrenamiento a la misma pérdida en ~2.3x a pequeña escala y proporcionando un aumento de velocidad de ~1.32x a 7.2B

36

alphaXiv

alphaXiv1 ene, 21:28

DeepSeek acaba de lanzar un impresionante documento para cerrar 2025 "mHC: Conexiones Hiper-Constriñidas" Las Conexiones Hiper convierten la única "autopista" residual en transformadores en n carriles paralelos, y cada capa aprende a mezclar y compartir señales entre los carriles. Pero si cada capa puede amplificar o reducir arbitrariamente los carriles, el producto de esas mezclas a través de la profundidad hace que las señales/gradientes se disparen o se desvanecen. Así que obligan a que cada mezcla conserve la masa: una matriz estocástica doble (no negativa, cada fila/columna suma 1). Cada capa solo puede redistribuir señales entre los carriles, no crear o destruir, ¡así que la ruta de salto profundo se mantiene estable mientras las características aún se mezclan! con n=4 añade ~6.7% de tiempo de entrenamiento, pero reduce la pérdida final en ~0.02, y mantiene la ganancia de retroceso en el peor de los casos en ~1.6 (frente a ~3000 sin la restricción), con victorias consistentes en los benchmarks en todos los ámbitos.

67

Parte superior

Clasificación

Favoritos

©2017 - 2026 WEB3.OKX.COM

Español (España)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Más información sobre OKX Web3

Descargar Academia Sobre nosotros Carreras profesionales Contáctanos Términos del servicio Política de privacidad X (antes Twitter)

Producto

Panel de la billetera Swap Mercado Earn Descúbrelo Construye Explorador Seguridad

Ayuda

Centro de ayuda Verificación de canal Anuncios Calendario de comisiones DEX Conecta con OKX Billetera para Bitcoin Billetera para Ethereum Billetera de Solana