Lightweight General Reasoning Benchmark-markedet er offisielt i gang. Evaluering 1 av 11 er direkte på Delphi. Se de fullstendige benchmarking-resultatene nå: