BullshitBench v2 вийшов! Це один із небагатьох бенчмарків, де моделі зазвичай не покращуються (крім Клода) і де міркування не допомагає. Що нового: 100 нових питань за доменом (кодування (40 запитань), медичні (15), юридичні (15), фінанси (15), фізика (15)), 70+ варіантів моделей протестовано. BullshitBench вже має 380 стартів на GitHub — там є всі питання, скрипти, відповіді та судження, тож перегляньте. Коротко; Коротко: - Результати відтворені — @AnthropicAI останні моделі отримують винятково хороші результати - @Alibaba_Qwen — ще один дуже сильний виконавець - Моделі OpenAI та Google працюють погано і не покращуються - Домени не мають значної різниці — швидкість виявлення BS приблизно однакова у всіх доменах - Міркування, якщо вже на те пішло, має негативний вплив - Новіші моделі не набагато кращі за старі (окрім Anthropic) Посилання: - Дослідник даних: - GitHub: Дуже рекомендую Data Explorer, де можна вивчати дані, питання та зразки відповідей.