¡Presentamos Husky Hold'em Bench, la primera evaluación de pokerbots con sistema operativo!
Recientemente hemos visto un gran trabajo en OS sobre evadir LLM en el juego estratégico.
Aquí hay otro con un giro: el modelo no puede elegir sus acciones directamente, sino que tiene que implementar su política en Python bajo restricciones de tiempo y memoria que descartan los enfoques de fuerza bruta y las tablas de búsqueda.
Luego enfrentamos a los bots entre sí en un formato de todos contra todos de 6 jugadores. ¿Cómo funcionan algunos de los principales modelos de razonamiento?
¡Presentamos Husky Hold'em Bench, la primera evaluación de pokerbots con sistema operativo!
Recientemente hemos visto un gran trabajo en OS sobre evadir LLM en el juego estratégico.
Aquí hay otro con un giro: el modelo no puede elegir sus acciones directamente, sino que tiene que implementar su política en Python bajo restricciones de tiempo y memoria que descartan los enfoques de fuerza bruta y las tablas de búsqueda.
Luego enfrentamos a los bots entre sí en un formato de todos contra todos de 6 jugadores. ¿Cómo funcionan algunos de los principales modelos de razonamiento?
¡Hermes-4-14B ha sido lanzado!
Nuestro LLM más compacto de la serie Hermes 4 se puede utilizar localmente y está optimizado para hardware de consumo, lo que proporciona acceso en el hogar a su potente razonamiento híbrido y llamada de herramientas.
El modelo ya está disponible en Nous Chat para su uso en línea y se puede descargar en HuggingFace.