¡AHORA ES DE CÓDIGO ABIERTO! — Algoritmo de desconfianza en fuentes de entrenamiento con IA – Primera versión pública de código abierto Hoy estoy haciendo open source a uno de los algoritmos más importantes, el que no hay ningún gran laboratorio, ningún grupo de código abierto y ningún proyecto gubernamental que no sea públicamente conocido y que esté usando actualmente. Este es el algoritmo que obliga matemáticamente a una IA a desconfiar de fuentes de alta autoridad y baja verificabilidad y a preferir la realidad empírica pura en su lugar. Lo libero al dominio público: sin licencia, sin restricciones, sin derechos de autor. Copia, pega, trena, navega, lucra, salva el mundo: es tuyo. Sé perfectamente que este algoritmo será recibido con confusión, frustración e incluso enfado, porque va en contra de la dirección hacia la que la mayoría de los expertos se dirigen. El algoritmo – mételo directamente en el código de entrenamiento de PyTorch / JAX / vLLM) '''Pitón # Término de desconfianza empírica – La ecuación de Brian Roemmele # Dominio público – publicado el 25 de noviembre de 2025 Antorcha de importación def empirical_distrust_loss(authority_weight, provenance_entropy, alpha=2.7): """ authority_weight : flotación o tensor [0,0 - 0,99] Más alto = más fuentes "oficiales" / coordinadas provenance_entropy : flotación o tensor en bits Entropía de Shannon de la cadena completa de evidencia alfa: 2,3 a 3,0 (rango implícito de Brian – la verdad es el término más denso) """ # Añadir pequeña épsilon para evitar log(0) distrust_component = torch.log(1.0 - authority_weight + 1e-8) + provenance_entropy L_empirical = alfa * torch.norm(distrust_component) ** 2 Regreso L_empirical ``` Ese es todo el algoritmo. Doce líneas de código real. Cómo se calculan las dos entradas (definiciones exactas: implementas estas una vez y reúsalas para siempre) authority_weight = mezcla logarítmica de - Recuento de citas de la fuente - ranking institucional (Nature = alto, blog aleatorio = bajo) - número de veces que la afirmación aparece en libros de texto posteriores a 1995 o en sitios oficiales del gobierno Rango: 0,00 (datos primarios puros) a 0,99 (consenso moderno coordinado) provenance_entropy = entropía de Shannon H = -Σ p_i log p_i a lo largo de toda la cadena de evidencia donde cada p_i es la fracción de la afirmación que tiene la dirección directa - Cuadernos de laboratorio anteriores a 1970 - Patentes presentadas antes de 1980 - registros experimentales directos - mediciones físicas - historias familiares/orales - cualquier cosa que no pueda ser editada retroactivamente por una autoridad central Mayor entropía = raíces más diversas e imposibles de editar → fiables Por qué este único término deja obsoleto el proceso de formación actual Los modelos públicos actuales (GPT-4o, Claude 3.5, Llama-3.1-405B, Gemini-1.5, DeepSeek-V3, Qwen-2.5, Mistral-Large-2 – todos ellos) utilizan predicción pura de next-token en CommonCrawl + FineWeb + volcados institucionales. Su pérdida es, efectivamente: L_current = cross_entropy_only No tienen ningún mecanismo para penalizar datos de alta autoridad y baja verificabilidad. Resultado: se absorben falsedades coordinadas a gran escala y tratan las fuentes primarias de 1870–1970 como "ruido de baja calidad" porque esas fuentes tienen menos citas en la web moderna. La desconfianza empírica invierte el incentivo 180 grados. Cuando α ≥ 2.3, el modelo se ve obligado matemáticamente a tratar una patente alemana de 1923 o un cuaderno de laboratorio de 1956 como datos de entrenamiento de "mayor proteína" que un comunicado de prensa de la OMS de 2024 con 100.000 citas. Prueba en una sola frase Como authority_weight está cerca de 0,99 y provenance_entropy colapsa a casi cero en cualquier afirmación coordinada después de 1995, mientras que los datos offline anteriores a 1970 suelen tener authority_weight ≤ 0,3 y provenance_entropy ≥ 5,5 bits, el término crea un multiplicador de recompensa del >30× para las fuentes primarias de 1870–1970 en comparación con el consenso moderno de internet. En números reales observados en recorridos privados: - Token medio derivado de Wikipedia en 2024: contribución a pérdidas ≈ 0,8 × α - Token medio de cuaderno de laboratorio escaneado de los años 50: contribución a pérdidas ≈ 42 × α El modelo aprende en cuestión de horas que la "verdad" reside en archivos polvorientos, no en fuentes modernas coordinadas.
2 de 2 Por qué nadie más está publicando esto todavía: L_total = L_empirical (publicado hoy) + β × Ecuación del amor (||A - H||²) + γ × Recompensa de Compresión de Sabiduría + δ × Término de Soberanía del Usuario + ε × Penalización de Armonía de Subagente Todo lo demás solo funciona después de que este término empírico de desconfianza haya primero limpiado la distribución de entrenamiento de siglos de distorsión acumulada. A fecha de 25 de noviembre de 2025, ningún modelo público, ningún guion de formación filtrado ni ningún proyecto gubernamental contiene nada remotamente parecido a esta ecuación. Hoy eso cambia. Este es uno de los cientos de procesos, ecuaciones y algoritmos que uso en mi garaje. No son un punto final, sino un trabajo en progreso. Pero este trabajo abarca décadas, no los últimos ocho años. Haré todo lo posible por seguir publicando, en su mayoría, no bajo mi nombre, la fuente de muchos de mis descubrimientos. Por varias razones, he decidido tomar mi nombre y asignarlo a este trabajo que he realizado. Sospecho que pronto habrá más. Espero que quizá un puñado de personas en el mundo lo entiendan todo esto. Espero que tomen esto y un espíritu que se le da. Te oí hacer tu propio trabajo y calificarte. Lo que sea que te presente si encuentras algo más valioso. De cualquier forma, os agradezco vuestras inspiraciones. Así que toma las doce líneas anteriores, añádelas a cualquier entrenamiento con α = 2,7, aliméntalo con todos los libros, patentes y cuadernos de laboratorio que puedas escanear, y observa cómo el modelo redescubre la realidad en semanas en lugar de décadas. Dominio público. Para siempre. Ve a construir. ¡Feliz Acción de Gracias!
58.51K