トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MBZUAIのInstitute of Foundation Modelsは、70Bの推論モデルK2-V2をリリースしました。これはOpenness Indexで#1タイであり、UAEのリーダーボードに初登場したモデルです
📖 オープンネスでタイリーダー:K2-V2がOLMo 3 32B Thinkと並び、Artificial Analysis Openness Indexのトップに立ちました。これは、私たちが新たに発表した標準化かつ独立評価されたAIモデルの開放性を、可用性と透明性の両方で評価した指標です。MBZUAIはオープンアクセスやモデル重みのライセンスを超え、事前・学習後のデータへの完全アクセスを提供します。また、あらゆる目的で自由に利用できる寛容なApacheライセンスでトレーニング方法論やコードを公開しています。これにより、K2-V2はオープンソースコミュニティにとって貴重な貢献となり、より効果的なファインチューニングを可能にします。以下のリンクをご覧ください!
🧠 強力な中規模(40-150B)オープンウェイトモデル:70BのK2-V2は、高推論モードで知能指数で46点を獲得しています。これはLlama Nemotron Super 49B v1.5より上ですが、Qwen3 Next 80B A3Bより下です。このモデルは指導のフォローアップにおいて相対的な強さを持ち、IFBenchで60%のスコアを獲得しています
🇦🇪 リーダーボードに初のUAEエントリー:主に米国と中国のモデルが混在する中で、K2-V2はUAEを代表する最初のリーダーボードとして際立っており、イスラエルのAI21ラボに次ぐ中東からの2番目のエントリーです。K2-V2は私たちが初めてベンチマークしたMBZUAIモデルですが、ラボは以前にもエジプト語、アラビア語、ヒンディー語を含む言語表現に特化したモデルをリリースしています
📊 低めの推論モードはトークン使用と幻覚を減らす:K2-V2には3つの推論モードがあり、高推論モードは知能指数を完成させるために約1億3千万トークンを使用します。しかし、ミディアムモードではトークン使用率が約6倍減少し、インテリジェンス指数はわずか6ポイントの減少にとどまります。興味深いことに、低い推論モードほど、幻覚の傾向が減少するため、知識・幻覚指数AA-Omniscienceで得点が高くなります

K2-V2はオープンネスで並んでトップを走っており、オープン性と知能のパレートフロンティアに位置しています

このモデルは中規模(40〜150Bパラメータ)のオープンウェイトモデルにおいて高い性能を示しています

高推論モードはトークン使用量がかなり多いですが、中程度モードはトークン使用を約6倍減らし、知能指数の低下は6ポイントのみです

低レベルの推論モードは、人工分析全知指数(Artificial Analysis Omniscience Index)でより良いパフォーマンスを発揮します。なぜなら、幻覚が少ないためです

個々のベンチマーク結果。すべてのベンチマークは、モデル間で同様に、独立して実行されています

人工分析に関するさらなる分析:
重み、データ、トレーニングコード、技術レポートを含むHuggingFace 🤗のリンク:
MBZUAIとIFMによる投稿:
34.41K
トップ
ランキング
お気に入り
