Fundamentos
Por qué la IA da respuestas distintas (y cómo controlarlo)
El mando que casi todo el mundo copia a ciegas. Aquí lo giras tú y ves, en directo, cómo el modelo pasa de seguro a caótico.
Si le haces la misma pregunta dos veces a una IA y te da respuestas distintas, no está «pensando» diferente: está tirando un dado sobre una lista de posibles siguientes tokens. La controla cómo de cargado está ese dado.
Gíralo tú mismo. La distribución de abajo es real (pre-calculada); cambia la temperatura y mira cómo se reparten las probabilidades:
El cielo de un día despejado es de color…
- azul83%
- celeste9%
- gris5%
- blanco2%
- negro1%
- rojo0%
- verde0%
- rosa0%
- naranja0%
- morado0%
¿Lo ves? Con temperatura 0 el modelo siempre elige la opción más probable (determinista, pero repetitivo). Subiéndola, las opciones poco probables empiezan a tener oportunidad: más variedad, pero también más riesgo de disparates. El top-p es otra forma de podar: se queda solo con los tokens más probables que sumen esa probabilidad.
Quieres que un modelo extraiga el importe total de una factura, siempre igual. ¿Qué temperatura usas?