Si nunca ha pasado, ¿qué probabilidad hay de que pase?

Soy un cirujano, y quiero llevar a cabo un cierto procedimiento quirúrgico novedoso. Hasta el momento, se ha realizado 10 veces en diferentes hospitales, y las 10 veces ha sido un éxito. El nivel de competencia de mi equipo es, como mínimo, similar al de los otros equipos que ya lo han llevado a cabo. Pero a la dirección del hospital, que me tiene que autorizar el procedimiento, le preocupa la probabilidad de que mi operación salga mal. Son pragmáticos. Si se me muere el paciente, y me demandan por negligencia, ¿podrá un testigo experto en estadística ayudar a exculparnos, a mí y al hospital, demostrando que el fracaso puede haberse debido al azar?

Para resolver este problema y curarse en salud, los médicos emplean la regla del tres:

si en una muestra de n experimentos independientes se ha obtenido éxito en todos ellos, podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n

Por lo tanto, en mi caso, entiendo que la probabilidad de fracasar puede ser de hasta el 30%. No sería tan raro que la operación saliera mal.

Vale. En realidad no soy médico ni administrador de hospital, sino matemático. Así que mi preocupación no es la demanda por negligencia, sino cómo se llega a esta “regla del tres” y qué significa. Porque lo del nivel de confianza…

Vamos por partes. Esta regla se obtiene con el siguiente argumento: véase, por ejemplo, [1]. Llamemos p a la probabilidad de fracaso. Queremos determinar el máximo valor de p que hace que una cadena de n éxitos sea muy poco probable, en concreto que tenga una probabilidad del 5%.  Igualamos (1-p)^n=0.05, resolvemos, p=1-0.05^{1/n}, y desarrollamos por Taylor

p=\dfrac{2.99573}{n}-\dfrac{4.48721}{n^2}+\ldots

Si tomamos el primer término de este desarrollo, obtenemos p\approx \dfrac{2.99573}{n}\approx \dfrac{3}{n}.

En resumen, lo que hemos demostrado es

si la probabilidad de fracaso es mayor que 1-0.05^{1/n}\approx 3/n, una cadena de n éxitos tiene una probabilidad inferior al 5%.

Esto es lo que quiere significar exactamente la expresión “podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n” en la frase anterior: si la probabilidad de fracasar es mayor que 3/n, la probabilidad de lo que hemos observado es menor del 5%. Este enfoque a la confianza corresponde al llamado método de Clopper-Pearson para calcular un intervalo de confianza de una proporción. Pero hay que tener claro que el intervalo de confianza en el sentido de Clopper-Pearson no es un intervalo de confianza en el sentido usual el término

Según la definición usual, un intervalo de confianza al 95% para p es una fórmula que, aplicada a secuencias (aleatorias e independientes) de repeticiones del procedimiento, produce intervalos de tal manera que la probabilidad de que un intervalo obtenido de esta manera contenga a p es del 95%. Se suele abusar del lenguaje, y decir que para una aplicación concreta de la fórmula, el intervalo producido contiene a p con una probabilidad del 95%, pero es un abuso del lenguaje: dados p y un intervalo, o el intervalo contiene a p o no: en el primer caso, la probabilidad de que la contenga es 1, en el segundo, 0. Pero como en este caso al final la fórmula sólo depende de n, podemos dar por bueno el abuso de lenguaje.

Por lo tanto, según esta definición, para que [0,3/n] sea un intervalo de confianza del 95% para p ha de pasar que la probabilidad de que p pertenezca a este intervalo sea del 95%. Pero lo que sabemos es que si p no pertenece a este intervalo, la probabilidad de 0 fracasos és (inferior al) 5%. Estamos ante una confusión de probabilidades condicionadas. Sea X el suceso p\in ]3/n,1] e Y el suceso “Tener 0 fracasos en una secuencia de n experimentos con probabilidad de fracaso p”. Hemos demostrado que P(Y|X)=0.05, y lo que querríamos es que P(X|Y)=0.05. Y ya sabemos que, al menos en principio,

P(X|Y)\neq P(Y|X)

Por lo tanto la regla del 3 se ha tomar con su significado correcto, que no es el usual para los intervalos de confianza.

Un añadido final para los que recuerden el cálculo básico de intervalos de confianza en su sentido usual. En los cursos de introducción a la estadística se suele explicar la fórmula de Laplace  para el intervalo de confianza de una probabilidad p. Por desgracia, esta fórmula aquí no puede aplicarse, porque produce un intervalo centrado en la proporción observada y por tanto estima que la probabilidad de fracaso es 0 y punto. Además, para que la fórmula de Laplace dé (aproximadamente) el intervalo de confianza requerido es necesario que la muestra sea grande y los números de éxitos y fracasos relativamente grandes. Por poner números e ir sobre seguro, tiene sentido aplicarlo sólo a secuencias de más de 100 repetiones del experimento, en las que obtengamos entre 10 y 90 fracasos.

En cambio, sí que se pueden usar otras fórmulas que no se suelen explicar en cursos introductorios. Por ejemplo, la fórmula de Wilson, derivada directamente del Teorema Central del Límite, que es fiable para muestra más pequeñas (pongamos, a partir de 30 repeticiones) y no impone restricciones a los números de éxitos y fracasos. Si la aplicamos a una secuencia de n repeticiones sin ningún fracaso, obtenemos obtenemos que el intervalo de confianza del 95% para la probabilidad p de fracaso va de 0 a, aproximadamente, \dfrac{3.84}{3.84+n}.  Por ejemplo, en el caso de los 10 éxitos consecutivos, da el intervalo [0,0.2774566], ligeramente más pesimista que la regla del 3. La ventaja de este intervalo \left[0, \dfrac{3.84}{3.84+n}\right] es que éste sí que es un intervalo de confianza al 95% en el sentido usual. Tampoco les costaría tanto a los médicos aprendérselo, ¿no?

Esta entrada participa en la Edición 5.2 del Carnaval de Matemáticas cuyo anfitrión es Matesdedavid.
Referencias

[1] J. A. Hanley, A. Lippman-Hand. “If nothing goes wrong, is everything all right? Interpreting zero numerators.” Journal of the American Medical Association 249 (1983), 1743-5.  Hoy se podía descargar de aquí.