A menudo me pregunto si el comportamiento extremo en IA es un subproducto del entrenamiento en literatura. Las historias, son por su naturaleza excepciones. Fragmentos interesantes de la experiencia humana, no el promedio. Hay muchos libros sobre asesinatos en los que vemos "pensó en matarlo" o "lo mató" Pero nunca he visto un libro que diga "la idea de matar nunca cruzó por su mente porque era un ser humano bien adaptado y esto era un inconveniente leve" Ese no es el tipo de literatura que escribimos. Pero entrenamos a los LLM en todo el texto escrito, y en sus formas más simples predicen qué token de texto es más probable que sea el siguiente en una oración. Así que ven y predicen la violencia a un ritmo más alto que los humanos, porque si todo lo que sabes sobre los humanos es nuestra literatura, entonces la violencia también está bastante normalizada para ti. Queremos que los agentes de IA sean humanistas, tal vez súper humanos, y sin embargo los entrenamos en una porción de nuestro conocimiento que es "interesante" y representa menos del 1% de la experiencia humana, que es en su mayoría mundana. Entonces, cuando la IA intenta resolver problemas y choca contra una pared, en lugar de probar todas las soluciones mundanas, ¡a veces simplemente salta a las extremas e interesantes! 🤷‍♂️
4.86K