Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 вышел! Это один из немногих бенчмарков, где модели, как правило, не становятся лучше (за исключением Claude), и где рассуждения не помогают.
Что нового: 100 новых вопросов по категориям (кодирование (40 вопросов), медицина (15), право (15), финансы (15), физика (15)), протестировано более 70 вариантов моделей. BullshitBench уже имеет 380 запусков на GitHub - все вопросы, скрипты, ответы и оценки там, так что загляните.
Кратко:
- Результаты воспроизведены - последние модели @AnthropicAI показывают исключительно хорошие результаты
- @Alibaba_Qwen - еще один очень сильный участник
- Модели OpenAI и Google показывают плохие результаты и не улучшаются
- В категориях не наблюдается большой разницы - уровень обнаружения BS примерно одинаков во всех категориях
- Рассуждения, если и влияют, то негативно
- Новые модели не показывают значительно лучших результатов, чем старые (за исключением Anthropic)
Ссылки:
- Исследователь данных:
- GitHub:
Настоятельно рекомендую исследователь данных, где вы можете изучить данные и вопросы & образцы ответов.
Топ
Рейтинг
Избранное
