BullshitBench v2 a ieșit! Este unul dintre puținele benchmark-uri în care modelele, în general, nu se îmbunătățesc (cu excepția lui Claude) și unde raționamentul nu ajută. Ce e nou: 100 de întrebări noi, pe domenii (codare (40 de întrebări), medical (15), juridic (15), finanțe (15), fizică (15)), 70+ variante de model testate. BullshitBench are deja 380 de starturi pe GitHub – toate întrebările, scripturile, răspunsurile și judecățile sunt acolo, așa că aruncă o privire. Pe scurt; DR: - Rezultate replicate - @AnthropicAI cele mai noi modele obțin scoruri excepțional de bune - @Alibaba_Qwen este un alt performer foarte puternic - Modelele OpenAI și Google nu merg bine și nu se îmbunătățesc - Domeniile nu prezintă o diferență semnificativă - ratele de detectare BS sunt aproximativ aceleași în toate domeniile - Raționamentul, dacă e ceva, are efect negativ - Modelele mai noi nu se descurcă mult mai bine decât cele mai vechi (cu excepția Anthropic) Linkuri: - Explorator de date: - GitHub: Recomand cu tărie exploratorul de date, unde poți studia datele, întrebările și răspunsurile exemplu.