OpenAI lanserte gpt-oss-safeguard (forhåndsvisning av forskning), modeller for sikkerhetsresonnement med åpen vekt i to størrelser: 120B og 20B TL; DR Et sikkerhetsverktøy for resonnement først: Modellen tar en utviklergitt policy ved slutning og bruker tankekjede for å klassifisere innhold og forklare beslutningen. - Bring-your-own-policy: bruk alle skriftlige retningslinjer under kjøring; Du trenger ikke å lære opp en klassifiserer på nytt for hver regelendring. - Forklarbare etiketter: Modellen returnerer tankekjederesonnement du kan inspisere for å forstå hvorfor den merket innhold på en bestemt måte. - Beste brukstilfeller: nye eller utviklende skader, svært nyanserte domener og situasjoner med få merkede eksempler. - Avveininger: høyere databehandling og ventetid enn tradisjonelle klassifiserere; kan utkonkurreres av oppgavespesifikke klassifierere som er opplært på mange merkede eksempler for komplekse risikoer. Lisens og nedlasting: - Apache 2.0 (ettergivende). - Modeller tilgjengelig for nedlasting fra Hugging Face.