OpenAI 發布了 gpt-oss-safeguard(研究預覽),開放權重的安全推理模型有兩種尺寸:120B 和 20B TL;DR 一個以推理為首的安全工具:該模型在推理時接受開發者提供的政策,並使用思維鏈來分類內容並解釋其決策。 - 自帶政策:在運行時應用任何書面政策;不需要為每次規則變更重新訓練分類器。 - 可解釋的標籤:該模型返回的思維鏈推理可以檢查,以了解為什麼它以某種方式標記內容。 - 最佳使用案例:新興或不斷演變的危害、高度細緻的領域,以及標記示例較少的情況。 - 取捨:相比傳統分類器需要更高的計算和延遲;在複雜風險的情況下,可能會被針對許多標記示例訓練的任務特定分類器超越。 許可證與下載: - Apache 2.0(寬鬆)。 - 模型可從 Hugging Face 下載。