Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Honestamente, la mayoría de los desarrolladores de IA todavía están atrapados en el siglo pasado.
Me sorprende cuántas pocas personas son conscientes del Análisis de Errores.
Esta es *literalmente* la forma más rápida y efectiva de evaluar aplicaciones de IA, y la mayoría de los equipos todavía están persiguiendo fantasmas.
Por favor, dejen de rastrear métricas genéricas y sigan estos pasos:
1. Recopilar muestras de fallos
Comience a revisar las respuestas generadas por su aplicación. Escriba notas sobre cada respuesta, especialmente aquellas que fueron errores. No necesita formatear sus notas de ninguna manera específica. Concéntrese en describir qué salió mal con la respuesta.
2. Categorizar sus notas
Después de haber revisado un buen conjunto de respuestas, tome un LLM y pídale que encuentre patrones comunes en sus notas. Pídale que clasifique cada nota según estos patrones.
Terminará con categorías que cubren cada tipo de error que cometió su aplicación.
3. Diagnosticar los errores más frecuentes
Comience enfocándose en el tipo de error más común. No quiere perder tiempo trabajando con errores raros.
Profundice en las conversaciones, entradas y registros que llevaron a esas muestras incorrectas. Intente entender qué podría estar causando los problemas.
4. Diseñar soluciones específicas
En este punto, desea determinar cómo eliminar los errores que diagnosticó en el paso anterior de la manera más rápida y económica posible.
Por ejemplo, podría ajustar sus indicaciones, agregar reglas de validación adicionales, encontrar más datos de entrenamiento o modificar el modelo.
5. Automatizar el proceso de evaluación
Necesita implementar un proceso simple para volver a ejecutar un conjunto de evaluación a través de su aplicación y evaluar si sus soluciones fueron efectivas.
Mi recomendación es usar un LLM como Juez para ejecutar muestras a través de la aplicación, puntuarlas con una etiqueta de APROBADO/REPROBADO y calcular los resultados.
6. Mantener un ojo en sus métricas
Cada categoría que identificó durante el análisis de errores es una métrica que desea rastrear a lo largo del tiempo.
No llegará a ninguna parte obsesionándose con "relevancia", "corrección", "completitud", "coherencia" y cualquier otra métrica estándar. Olvídese de estas y concéntrese en los problemas reales que encontró.

49,37K
Parte superior
Clasificación
Favoritos