¡BullshitBench v2 ya está aquí! Es uno de los pocos benchmarks donde los modelos generalmente no están mejorando (excepto Claude) y donde el razonamiento no está ayudando. Novedades: 100 nuevas preguntas, por dominio (programación (40 preguntas), medicina (15), legal (15), finanzas (15), física (15)), más de 70 variantes de modelos probadas. BullshitBench ya tiene 380 inicios en GitHub - todas las preguntas, scripts, respuestas y juicios están allí, así que échale un vistazo. Resumen: - Resultados replicados - los últimos modelos de @AnthropicAI están obteniendo puntuaciones excepcionalmente buenas - @Alibaba_Qwen es otro intérprete muy fuerte - Los modelos de OpenAI y Google no están funcionando bien y no están mejorando - Los dominios no muestran mucha diferencia - las tasas de detección de BS son aproximadamente las mismas en todos los dominios - El razonamiento, si acaso, tiene un efecto negativo - Los modelos más nuevos no lo hacen mucho mejor que los más antiguos (excepto Anthropic) Enlaces: - Explorador de datos: - GitHub: Recomiendo encarecidamente el explorador de datos donde puedes estudiar los datos y las preguntas y respuestas de muestra.