X ha abierto su algoritmo de recomendación, y lo más impresionante es: cero características manuales. Los sistemas de recomendación tradicionales requieren un montón de personas para escribir ingeniería de características, como "clasificación de la actividad del usuario", "percentiles del número de seguidores del autor", "coeficiente de disminución de la popularidad de las publicaciones"; cambiar una característica puede llevar tres meses, y al lanzarla podría fallar. X permite que Grok Transformer aprenda de manera end-to-end, eliminando toda esta necesidad. ¿Por qué es esto tan importante? La ingeniería de características es la mayor deuda técnica de los sistemas de recomendación. Las características escritas por personas necesitan mantenimiento, y si esa persona se va, el conocimiento se pierde. He visto demasiadas empresas donde la lógica de características clave solo la entiende una persona; si esa persona se va, todo el sistema se convierte en una caja negra. El modelo puede descubrir patrones que los humanos no pueden imaginar. Tú piensas que "el tiempo de publicación" es importante, pero el modelo podría descubrir que "el tercer carácter es un emoji" es aún más relevante. La capacidad de inducción del cerebro humano es una broma frente a datos de cientos de millones. Cuando el comportamiento cambia, el modelo se adapta automáticamente. No hay que esperar a que el PM proponga requisitos, no hay que programar, ni hacer pruebas A/B durante un año. Cuando los usuarios cambian, el modelo también cambia. Además, hay un detalle que mucha gente no ha notado: ellos predicen simultáneamente 15 tipos de comportamiento. Los me gusta, retweets y respuestas son señales positivas, con peso positivo. Bloquear, silenciar y reportar son señales negativas, con peso negativo. La puntuación final = probabilidad positiva × peso positivo + probabilidad negativa × peso negativo. No se trata de maximizar la tasa de clics, sino de maximizar "que los usuarios no odien". Esta es la verdadera optimización de la experiencia del usuario, no engañarte para que hagas clic y luego arrepentirte. Otro punto destacado del proyecto: Aislamiento de Candidatos. Durante la inferencia, las publicaciones candidatas no pueden verse entre sí, solo pueden ver el contexto del usuario. La ventaja es que la puntuación es estable, se puede almacenar en caché y no cambia debido a otras publicaciones en el mismo lote. Esta arquitectura utiliza torres dobles para la recuperación, Transformer para el ordenamiento fino y reglas para el filtrado, con responsabilidades bien definidas. Rust se utiliza para las partes sensibles al rendimiento, Python para el modelo; la elección tecnológica también es muy pragmática....