BullshitBench v2 вышел! Это один из немногих бенчмарков, где модели, как правило, не становятся лучше (за исключением Claude), и где рассуждения не помогают. Что нового: 100 новых вопросов по категориям (кодирование (40 вопросов), медицина (15), право (15), финансы (15), физика (15)), протестировано более 70 вариантов моделей. BullshitBench уже имеет 380 запусков на GitHub - все вопросы, скрипты, ответы и оценки там, так что загляните. Кратко: - Результаты воспроизведены - последние модели @AnthropicAI показывают исключительно хорошие результаты - @Alibaba_Qwen - еще один очень сильный участник - Модели OpenAI и Google показывают плохие результаты и не улучшаются - В категориях не наблюдается большой разницы - уровень обнаружения BS примерно одинаков во всех категориях - Рассуждения, если и влияют, то негативно - Новые модели не показывают значительно лучших результатов, чем старые (за исключением Anthropic) Ссылки: - Исследователь данных: - GitHub: Настоятельно рекомендую исследователь данных, где вы можете изучить данные и вопросы & образцы ответов.