みんなAWSの新しい論文を寝ている。 GPTとClaudeの100倍小さいモデルがツールコールで彼らを圧倒しました。 AWSの研究者たちは、2022年に発表されたFacebookのOPT-350M(GPTの500倍少ないパラメータを持つモデル)を、ToolBenchで単一のエポックのために微調整しました。 結果は驚異的です: ↳ 彼らのSLM:合格率77.55% ↳ ChatGPT-CoT:26% ↳ ToolLLaMA: 30% ↳ クロード-CoT:2.73% 今起きていることは以下の通りです: 大規模なモデルは「パラメータ希釈」の問題を抱えています。その能力の多くは一般的な言語タスクに最適化されており、ツール呼び出しに必要な正確な思考・行動・行動入力パターンには最適化されていません。 ツール呼び出しに特化した小さなモデルは、その一つのことに全ての能力を集中させます。気を散らすものはありません。 訓練のセットアップは驚くほどシンプルだった。Hugging Face TRL、187K例、5e-5の学習率、そして安定性のための積極的なグラデーションクリッピング。 しかし、一つ明確にしたいことがあります。 だからといって、小さなモデルがどこでも勝つわけではありません。著者らは、自分たちのモデルが複雑な文脈的なニュアンスや曖昧な要求に苦労する可能性があることを認めています。専門医であって、ジェネラリストではありません。 それでも、エージェント系を構築し、推論コストを桁違いに削減したいなら、これは注目に値します。 次のツイートで論文のリンクを共有しました。