AutoJudgeという、以下を組み合わせたデコーディング技術に関する最近の研究をご紹介できることを嬉しく思います。 - 分布マッチ制約を緩和することで推論を加速させる - 自己監督型トレーニングプロトコルによる使いやすさとスケーラビリティ 本日 #NeurIPS2025 で発表します!(1/9)
受け入れ分類器のラベルを自動的にマイニングできることがわかりました。具体的には、データセットをターゲットとドラフトモデル生成を実行します。 次に、ターゲットモデルとドラフトモデル間のすべての不一致トークンを確認します。ドラフトモデルからトークンを保持した結果、間違った答えが出た場合は重要としてマークされます(3/9)。
これらのラベルを用いて、推論時に重要なトークンを見つけるための簡単な分類器を訓練できます。 もし元の投機的復号がトークンを拒否するなら、分類子に尋ねて再度チャンスを与えます。重要でないトークンについては生成を続けますが、他のトークンについては新たな投機サイクル(4/9)を開始します
AutoJudgeの主な評価は、正解性を測定しやすい課題、例えばプログラミング(LiveCodeBench)や数学(GSM8K)に焦点を当てています。 8B/70Bのようなモデルペアでは、1サイクルあたり最大40個の受理トークンを、<1%の精度で達成できます!(5/9)
AutoJudgeはまた、vLLMなどのオープンソース推論フレームワークとも容易に統合できます。受け入れ率の向上はエンドツーエンドのスピードアップにつながります。精度を2%減らすと、1秒あたりほぼ50%多くのトークンが取得できます!(6/9)
重要なトークンの注釈を調べると興味深いパターンが見られます。明確な誤りは負のサンプルとしてマークされ(=>再生が必要)、意味的に同値なトークンは推測を進めることを許します(7/9)
詳しくは以下のサイトをご覧ください: 紙: コード: ブログ記事: GSM8KおよびLiveCodeBenchの事前計算されたアクティベーション: (8/9)
この研究は、私の素晴らしい共著者である@garipovroma、@MightyNeighbour、イヴァン・エルマコフ、ルスラン・スヴィルシェフスキ、ヴァーゲ・エギアザリアンによって主導されました。 チームは今週サンディエゴでNeurIPSを開催します — ポスターセッションでぜひお声をかけてください! 午後4時30分、ポスター#2010(9/9)
2.51K