Si nunca ha pasado, ¿qué probabilidad hay de que pase?

Soy un cirujano, y quiero llevar a cabo un cierto procedimiento quirúrgico novedoso. Hasta el momento, se ha realizado 10 veces en diferentes hospitales, y las 10 veces ha sido un éxito. El nivel de competencia de mi equipo es, como mínimo, similar al de los otros equipos que ya lo han llevado a cabo. Pero a la dirección del hospital, que me tiene que autorizar el procedimiento, le preocupa la probabilidad de que mi operación salga mal. Son pragmáticos. Si se me muere el paciente, y me demandan por negligencia, ¿podrá un testigo experto en estadística ayudar a exculparnos, a mí y al hospital, demostrando que el fracaso puede haberse debido al azar?

Para resolver este problema y curarse en salud, los médicos emplean la regla del tres:

si en una muestra de n experimentos independientes se ha obtenido éxito en todos ellos, podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n

Por lo tanto, en mi caso, entiendo que la probabilidad de fracasar puede ser de hasta el 30%. No sería tan raro que la operación saliera mal.

Vale. En realidad no soy médico ni administrador de hospital, sino matemático. Así que mi preocupación no es la demanda por negligencia, sino cómo se llega a esta “regla del tres” y qué significa. Porque lo del nivel de confianza…

Vamos por partes. Esta regla se obtiene con el siguiente argumento: véase, por ejemplo, [1]. Llamemos p a la probabilidad de fracaso. Queremos determinar el máximo valor de p que hace que una cadena de n éxitos sea muy poco probable, en concreto que tenga una probabilidad del 5%.  Igualamos (1-p)^n=0.05, resolvemos, p=1-0.05^{1/n}, y desarrollamos por Taylor

p=\dfrac{2.99573}{n}-\dfrac{4.48721}{n^2}+\ldots

Si tomamos el primer término de este desarrollo, obtenemos p\approx \dfrac{2.99573}{n}\approx \dfrac{3}{n}.

En resumen, lo que hemos demostrado es

si la probabilidad de fracaso es mayor que 1-0.05^{1/n}\approx 3/n, una cadena de n éxitos tiene una probabilidad inferior al 5%.

Esto es lo que quiere significar exactamente la expresión “podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n” en la frase anterior: si la probabilidad de fracasar es mayor que 3/n, la probabilidad de lo que hemos observado es menor del 5%. Este enfoque a la confianza corresponde al llamado método de Clopper-Pearson para calcular un intervalo de confianza de una proporción. Pero hay que tener claro que el intervalo de confianza en el sentido de Clopper-Pearson no es un intervalo de confianza en el sentido usual el término

Según la definición usual, un intervalo de confianza al 95% para p es una fórmula que, aplicada a secuencias (aleatorias e independientes) de repeticiones del procedimiento, produce intervalos de tal manera que la probabilidad de que un intervalo obtenido de esta manera contenga a p es del 95%. Se suele abusar del lenguaje, y decir que para una aplicación concreta de la fórmula, el intervalo producido contiene a p con una probabilidad del 95%, pero es un abuso del lenguaje: dados p y un intervalo, o el intervalo contiene a p o no: en el primer caso, la probabilidad de que la contenga es 1, en el segundo, 0. Pero como en este caso al final la fórmula sólo depende de n, podemos dar por bueno el abuso de lenguaje.

Por lo tanto, según esta definición, para que [0,3/n] sea un intervalo de confianza del 95% para p ha de pasar que la probabilidad de que p pertenezca a este intervalo sea del 95%. Pero lo que sabemos es que si p no pertenece a este intervalo, la probabilidad de 0 fracasos és (inferior al) 5%. Estamos ante una confusión de probabilidades condicionadas. Sea X el suceso p\in ]3/n,1] e Y el suceso “Tener 0 fracasos en una secuencia de n experimentos con probabilidad de fracaso p”. Hemos demostrado que P(Y|X)=0.05, y lo que querríamos es que P(X|Y)=0.05. Y ya sabemos que, al menos en principio,

P(X|Y)\neq P(Y|X)

Por lo tanto la regla del 3 se ha tomar con su significado correcto, que no es el usual para los intervalos de confianza.

Un añadido final para los que recuerden el cálculo básico de intervalos de confianza en su sentido usual. En los cursos de introducción a la estadística se suele explicar la fórmula de Laplace  para el intervalo de confianza de una probabilidad p. Por desgracia, esta fórmula aquí no puede aplicarse, porque produce un intervalo centrado en la proporción observada y por tanto estima que la probabilidad de fracaso es 0 y punto. Además, para que la fórmula de Laplace dé (aproximadamente) el intervalo de confianza requerido es necesario que la muestra sea grande y los números de éxitos y fracasos relativamente grandes. Por poner números e ir sobre seguro, tiene sentido aplicarlo sólo a secuencias de más de 100 repetiones del experimento, en las que obtengamos entre 10 y 90 fracasos.

En cambio, sí que se pueden usar otras fórmulas que no se suelen explicar en cursos introductorios. Por ejemplo, la fórmula de Wilson, derivada directamente del Teorema Central del Límite, que es fiable para muestra más pequeñas (pongamos, a partir de 30 repeticiones) y no impone restricciones a los números de éxitos y fracasos. Si la aplicamos a una secuencia de n repeticiones sin ningún fracaso, obtenemos obtenemos que el intervalo de confianza del 95% para la probabilidad p de fracaso va de 0 a, aproximadamente, \dfrac{3.84}{3.84+n}.  Por ejemplo, en el caso de los 10 éxitos consecutivos, da el intervalo [0,0.2774566], ligeramente más pesimista que la regla del 3. La ventaja de este intervalo \left[0, \dfrac{3.84}{3.84+n}\right] es que éste sí que es un intervalo de confianza al 95% en el sentido usual. Tampoco les costaría tanto a los médicos aprendérselo, ¿no?

Esta entrada participa en la Edición 5.2 del Carnaval de Matemáticas cuyo anfitrión es Matesdedavid.
Referencias

[1] J. A. Hanley, A. Lippman-Hand. “If nothing goes wrong, is everything all right? Interpreting zero numerators.” Journal of the American Medical Association 249 (1983), 1743-5.  Hoy se podía descargar de aquí.

Advertisements

¡Las primeras obritas de teatro estadístico, al fin disponibles!

¡Y nosotros sin saberlo! Resulta que ya hace más de un mes que algunas de las obritas de teatro que hemos escrito Patricia Trapero y yo, presentadas entre otros lugares en las JAEM (en castellano) y las JEM (en catalán) del verano pasado, han sido publicadas en formato ebook y se pueden descargar gratis, en catalán y en castellano y con el material complementario, de la página web de Ebooks UIB. Ha sido todo un parto: revisarlas a partir de la experiencia de diferentes representaciones, adaptarlas a ambos idiomas, pasar la revisión lingüística preceptiva, superar problemas técnicos con el formato electrónico… ¡Pero ya están aquí!

JAEMUOM

Mis alumnos de la UOM, representando una de las obras

Por ahora hay cuatro:

  • “Muriel y las ocho tazas de té”, sobre la supuesta capacidad de Muriel Bristol para detectar cómo se ha preparado el té, y cómo Ronald Fisher decidió comprobarlo
  • “El análisis”, típica historieta sobre el teorema de Bayes
  • “El poder de la oración… o no”, sobre la dificultad de diseñar experimentos
  • “Cuando los estadísticos nacen estrellados”, sobre la vida de Chester Bliss, el Frank Spencer de la estadística

y parece que están en la fase final de su periplo previo a publicarse:

  • “Me llamo Francis y soy un adicto”,  monólogos de Francis Galton sobre su adicción a contar (publiqué uno en este blog hace un tiempo)
  • “Pascal Consulting”, adivinad sobre qué.

Las otras dos que presentamos en las JAEM aún tardarán un tiempo, las queremos reescribir completamente.