OpenAI lanzó gpt-oss-safeguard (vista previa de la investigación), modelos de razonamiento de seguridad de peso abierto en dos tamaños: 120B y 20B TL; DR Una herramienta de seguridad que prioriza el razonamiento: el modelo toma una política proporcionada por el desarrollador en la inferencia y utiliza la cadena de pensamiento para clasificar el contenido y explicar su decisión. - Bring-your-own-policy: aplique cualquier política escrita en tiempo de ejecución; No es necesario volver a entrenar un clasificador para cada cambio de regla. - Etiquetas explicables: el modelo devuelve un razonamiento de cadena de pensamiento que puede inspeccionar para comprender por qué etiquetó el contenido de cierta manera. - Mejores casos de uso: daños emergentes o en evolución, dominios altamente matizados y situaciones con pocos ejemplos etiquetados. - Compensaciones: mayor computación y latencia que los clasificadores tradicionales; pueden ser superados por clasificadores específicos de tareas entrenados en muchos ejemplos etiquetados para riesgos complejos. Licencia y descarga: - Apache 2.0 (permisivo). - Modelos disponibles para descargar desde Hugging Face.