Heute kündigen wir eine Vorschau auf ARC-AGI-3 an, den Interaktiven Reasoning Benchmark mit der größten Kluft zwischen einfach für Menschen und schwer für KI. Wir veröffentlichen: * 3 Spiele (Umgebungen) * 10.000 $ Agenten-Wettbewerb * API für KI-Agenten Startwerte - Frontier KI: 0%, Menschen: 100%
o3 (links) und Grok 4 (rechts) Wiederholungen unten Spoiler: Keiner von beiden schließt ein einziges Level ab.
ARC-AGI-3 Vorschau-Spiele müssen einem Drucktest unterzogen werden. Wir veranstalten einen 30-tägigen Agentenwettbewerb in Partnerschaft mit @huggingface Wir rufen die Community auf, Agenten zu entwickeln (und Geld zu gewinnen!)
296,87K