Por qué la IA da respuestas distintas (y cómo controlarlo)

Si le haces la misma pregunta dos veces a una IA y te da respuestas distintas, no está «pensando» diferente: está tirando un dado sobre una lista de posibles siguientes tokens. La controla cómo de cargado está ese dado.

Gíralo tú mismo. La distribución de abajo es real (pre-calculada); cambia la temperatura y mira cómo se reparten las probabilidades:

Temperatura

El cielo de un día despejado es de color…

Temperatura0.80

top-p1.00

azul83%
celeste9%
gris5%
blanco2%
negro1%
rojo0%
verde0%
rosa0%
naranja0%
morado0%

Sube la temperatura y mira cómo el modelo pasa de seguro y aburrido a diverso y caótico. Las probabilidades están pre-calculadas; no hay llamada a ningún modelo.

¿Lo ves? Con temperatura 0 el modelo siempre elige la opción más probable (determinista, pero repetitivo). Subiéndola, las opciones poco probables empiezan a tener oportunidad: más variedad, pero también más riesgo de disparates. El top-p es otra forma de podar: se queda solo con los tokens más probables que sumen esa probabilidad.

Quiz

Quieres que un modelo extraiga el importe total de una factura, siempre igual. ¿Qué temperatura usas?