Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 вийшов! Це один із небагатьох бенчмарків, де моделі зазвичай не покращуються (крім Клода) і де міркування не допомагає.
Що нового: 100 нових питань за доменом (кодування (40 запитань), медичні (15), юридичні (15), фінанси (15), фізика (15)), 70+ варіантів моделей протестовано. BullshitBench вже має 380 стартів на GitHub — там є всі питання, скрипти, відповіді та судження, тож перегляньте.
Коротко; Коротко:
- Результати відтворені — @AnthropicAI останні моделі отримують винятково хороші результати
- @Alibaba_Qwen — ще один дуже сильний виконавець
- Моделі OpenAI та Google працюють погано і не покращуються
- Домени не мають значної різниці — швидкість виявлення BS приблизно однакова у всіх доменах
- Міркування, якщо вже на те пішло, має негативний вплив
- Новіші моделі не набагато кращі за старі (окрім Anthropic)
Посилання:
- Дослідник даних:
- GitHub:
Дуже рекомендую Data Explorer, де можна вивчати дані, питання та зразки відповідей.
Найкращі
Рейтинг
Вибране
