Ayer jugué con Gemini 3 a través del acceso anticipado. Algunas reflexiones - Primero, generalmente aconsejo precaución con los benchmarks públicos porque, en mi opinión, pueden ser bastante manipulables. Todo se reduce a la disciplina y la autocontención del equipo (que, mientras tanto, está fuertemente incentivado a lo contrario) para no sobreajustar los conjuntos de prueba a través de elaboradas acrobacias sobre datos adyacentes al conjunto de prueba en el espacio de incrustación de documentos. Realísticamente, dado que todos los demás lo están haciendo, la presión para hacerlo es alta. Ve a hablar con el modelo. Habla con los otros modelos (Sigue el ciclo LLM - usa un LLM diferente cada día). Ayer tuve una impresión temprana positiva en cuanto a personalidad, escritura, codificación de vibras, humor, etc., un potencial muy sólido como conductor diario, claramente un LLM de nivel 1, ¡felicitaciones al equipo! En los próximos días/semanas, tengo mucha curiosidad y estoy atento a un conjunto sobre evaluaciones privadas, que muchas personas/organizaciones parecen estar construyendo para sí mismas y ocasionalmente informan aquí.