Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡BullshitBench v2 ya está aquí! Es uno de los pocos benchmarks donde los modelos generalmente no están mejorando (excepto Claude) y donde el razonamiento no está ayudando.
Novedades: 100 nuevas preguntas, por dominio (programación (40 preguntas), medicina (15), legal (15), finanzas (15), física (15)), más de 70 variantes de modelos probadas. BullshitBench ya tiene 380 inicios en GitHub - todas las preguntas, scripts, respuestas y juicios están allí, así que échale un vistazo.
Resumen:
- Resultados replicados - los últimos modelos de @AnthropicAI están obteniendo puntuaciones excepcionalmente buenas
- @Alibaba_Qwen es otro intérprete muy fuerte
- Los modelos de OpenAI y Google no están funcionando bien y no están mejorando
- Los dominios no muestran mucha diferencia - las tasas de detección de BS son aproximadamente las mismas en todos los dominios
- El razonamiento, si acaso, tiene un efecto negativo
- Los modelos más nuevos no lo hacen mucho mejor que los más antiguos (excepto Anthropic)
Enlaces:
- Explorador de datos:
- GitHub:
Recomiendo encarecidamente el explorador de datos donde puedes estudiar los datos y las preguntas y respuestas de muestra.
Parte superior
Clasificación
Favoritos
