El 26 y los capicúas

Qué mejor día para quitar las telarañas a este blog que el 26 de febrero, 262, capicúa.
Aunque en realidad yo quería hablar de otro 26-2 capicúa, el 26^2=676. Resulta que el 26 es el menor número natural no capicúa que elevado al cuadrado da capicúa. El siguiente ya es el 264, que elevado al cuadrado da 69696.

Los números capicúas son muy populares en matemática recreativa, y recientemente se ha demostrado que también son relevantes en aritmética. Justo este pasado mes de agosto, William Banks, de la Univ. de Missouri, demostró que todo número natural es igual a la suma de números capicúas. Me podríais decir: bah, el 1 es capicúa y todo número es suma de unos, mira tú. No es esto. Bueno, sí, tendríais razón, pero Banks demostró algo más concreto: que, por grande que sea el número natural que nos den, siempre podemos encontrar una familia de, como máximo, 49 números capicúas cuya suma sea el número dado.

Hay muchas preguntas sobre potencias capicúas para las que los matemáticos desconocemos la respuesta. Por ejemplo, cuántos números no capicúas hay cuyo cuadrado sea capicúa? Hay infinitos? No se sabe. El más grande que se conoce tiene 28 dígitos, y su cuadrado, 55, y fue descubierto en 2008 por Feng Yuan, un informático aficionado a este tipo de cuestiones del estado de Washington, pero no sabemos si hay otros más adelante.

En cambio, es fácil producir tantos números capicúas con cuadrado capicúa como queráis: por ejemplo, tomad cualquier número formado por un 1, seguido de una secuencia de ceros y acabado con otro 1: 11, 101, 1001, 10001 etc. El cuadrado de un número de estos se obtiene siempre concatenando dos copias del número y cambiando el 11 que aparece en medio por un 2; es un buen ejercicio demostrarlo. Y en particular, como vemos, este cuadrado es capicúa.

Hay otras preguntas sobre números capicúas que permanecen abiertas. Por ejemplo, sólo se conoce un número no capicúa que elevado al cubo dé capicúa, el 2201; no se sabe si hay más. No se conoce ningún número no capicúa que elevado a la cuarta potencia dé capicúa, y no se sabe si existen. Y, para rematarlo, no se conoce ningún número diferente de 1, capicúa o no, tanto da, ninguno, que elevado a 5 o más dé capicúa. Antes de que os pongáis con la calculadora a buscar, tengo que avisaros de que ya se han comprobado todos los números de hasta 14 cifras y todas las potencias hasta 10. Será el tipo de problemas para los que decía Erdös que la matemática actual aún no está preparada?

Esta entrada participa en la Edición 7.1 del Carnaval de Matemáticas cuyo anfitrión es Tito Eliatron Dixit.

Añadido en prensa: Al poco de publicar la entrada me entero por Gaussianos de que  Javier Cilleruelo, de la Universidad Autónoma de Madrid, ha reducido la cota de Banks de 49 a 3: todo número natural es suma de como máximo 3 capicúas.

La simetría también es buena… en el cáncer

Las caras simétricas nos parecen más bonitas. Las simetrías en las decoraciones de la Alhambra y otros edificios árabes nos resultan fascinantes. 196.000 resultados en Google de “symmetry is good”. Bueno, pues resulta que un tipo concreto de simetría también es buena señal en el cáncer.

Para algunos tipos de cáncer, se han publicado sus redes de interacciones de proteínas (PPI) en la base de datos KEGG PATHWAY. Estas redes representan el conocimiento actual sobre las interacciones entre proteínas en células cancerosas. Desde el punto de vista matemático, son grafos no dirigidos relativamente grandes, sin bucles ni aristas múltiples. Una línea de investigación muy popular en biología computacional de sistemas es la reconstrucción automática de este tipo de redes a partir de datos experimentales, y el estudio y comparación de los grafos resultantes.

Una propiedad que se puede estudiar en un grafo es su simetría. Se dice que un grafo es simétrico cuando tiene algún automorfismo diferente de la identidad, y más simétrico es cuantos más automorfismos tiene, ea decir, cuanto más fácil sea intercambiar algunos de sus nodos sin que se modifique la estructura abstracta de conexiones que representa.Es bien sabido que si escogemos al azar (de manera equiprobable) un grafo de n nodos, la probabilidad de que sea simétrico tiende a 0 a medida que n tiende a \infty. En cambio, las grandes redes complejas de la vida real (desde Internet a las redes biomoleculars) tienen grupos de automorfismos muy grandes, como se puede comprobar en la tabla 1 de Symmetry in Complex Networks de B. MacArthur, R. Sánchez-García y J. Anderson. Esto se puede tomar como un síntoma más de que las redes complejas de la vida real son poco aleatorias.

Una manera de medir la simetría de un grafo G de n nodos es mediante el siguiente índice, que cuantifica la fracción  de automorfismos en el conjunto total de permutaciones de sus vértices:

\displaystyle\beta(G)=\left(\frac{|Aut(G)|}{n!}\right)^{\frac{1}{n}}

En un artículo colgado en el arXiv el pasado mes de mayo, P. Hinow, A. Rietman, J. Tuszynski han calculado este índice \beta para las redes PPI de algunos tipos de cáncer, y los han comparado con su probabilidad estimada p de supervivencia a los 5 años (que se puede obtener del Surveillance, Epidemiology, and End Results Program). Su conclusión se resume en el gráfico siguiente:

regrsim

Este gráfico muestra una clara correlación positiva entre la probabilidad de supervivencia y el índice de simetría \beta: a más simétrico, más benigno. El coeficiente de determinación R^2 que obtienen es de 0.52. No es para echar las campanas al vuelo, pero dados por un lado la gran imprecisión en la estimación de la mortalidad para los diferentes tipos de cáncer que se obtiene del SEER, y por otro nuestro desconocimiento del detalle completo de las redes PPI, la correlación que obtienen se puede considerar significativa.

So what? Bueno, es curioso. Cuánto más simétrica es una red PPI, más reemplazables son sus elementos por otras proteínas en la misma red, lo que la vuelve más robusta a fallos cuando alguna proteína se elimina del sistema por ejemplo mediante algún medicamento. Que esta propiedad esté correlacionada positivamente con la probabilidad de supervivencia a 5 años va completamente en contra de nuestra intuición, y muestra que aún nos falta mucho por aprender sobre el comportamiento del cáncer.

Una semana en el Isaac Newton Institute

La semana pasada participamos en el workshop: Mathematical, Statistical and Computational Aspects of the New Science of Metagenomics. Fueron cinco dias intensos, de muchas y buenas charlas de metagenómica, nueva rama del mundo de la biología computacional que estudia el conjunto de genomas de un determinado entorno directamente a partir de muestras de ese ambiente, sin necesidad de aislar y cultivar esas especies.  IMG_7618El workshop, así como el resto de reuniones y sesiones que continuaran a lo largo de las próximas semanas, lo han organizado  Wally Gilks (University of Leeds), Daniel Huson (Universität Tübingen), Elisa Loza (Rothamsted Research), Gabriel Valiente (Universitat Politècnica de Catalunya) y Tandy Warnow (University of Texas at Austin) junto con el Isaac Newton Institute programme Mathematical, Statistical and Computational Aspects of the New Science of Metagenomics.

La idea de este programa es reunir investigadores de distintas ramas de la metagenómica para poner en común sus puntos de vista y discutir sobre el futuro de la metagenómica. Para ello, se ha dedicado la primera semana  de este programa a la explicación y puesta en común de los trabajos realizados por los distintos investigadores, para en las próximas semanas pasar a una lluvia de ideas, discusión y finalmente algunas conclusiones del trabajo futuro a realizar.

Durante la semana pudimos disfrutar de buenas y diversas charlas. Inició la sesión Meyer F. del Argonne National Laboratory (USA), titulada Lessons learned from operating a bit metagenomics resource, en la que pudimos disfrutar de una excepcional descripción de lo que ha sido la investigación en metagenómica por el momento y, sobretodo, de los retos y dificultades que conllevan la necesidad de utilizar bases de datos de gran magnitud.   El segundo día se dedicó enteramente al problema de ensamblaje de secuencias. Diversos conferenciantes mostraron los distintos algoritmos y técnicas usadas para dicho fin, poniendo de manifiesto las dificultades inherentes al ensamblaje dentro del mundo de la metagenómica.

El tercer día lo empezamos con una charla de E. Rubin, del Joint Genome Institut Lawrence Berkeley National Laboratory, (USA). Edward nos impresionó con una charla en la que cuestionó la separación en tres dominios de las especies y animó a los investigadores asistentes a usar las herramientas de la metagenómica para encontrar un nuevo dominio y nuevas especies, principalmente entre las bacterias y archaeas. Durante el resto del día, así como el día siguiente, tuvimos charlas también interesantes sobre metabolismo, proteómica y transcripción de distintas comunidades de microbios estudiadas desde el punto de vista de la metagenómica, con algunas conclusiones muy interesantes sobre los distintos ecosistemas estudiados y algunas aplicaciones médicas.

Tal y como se acostumbra a hacer en los workshops, el tercer día finalizó con una cena de gala, en la que tuvimos el placer de hablar tranquila y distendidamente con algunos de los participantes. La disposición del comedor, una gran mesa ovalada en la que estábamos sentados todos los comensales, posiblemente el hecho de que el comedor fuera la sala de lectura del Cambridge Union Society, e indiscutiblemente, la compañía de los comensales, hicieron que la velada fuera realmente agradable.

La tarde del cuarto día se dedicó a la presentación de distintas herramientas informáticas para la metagenómica, poniendo de manifiesto los retos alcanzados, pero también los objetivos que todavía no se han conseguido.   Finalmente, el último día de este workshop se dedicó, enteramente, a los métodos estadísticos que se han usado por el momento en el campo de la metagenómica. Además de algunas charlas de métodos de aprendizaje automático aplicados a la metagenómica, cabe destacar la charla de S. Holmes, de la Stanford University, en la que también trató cuales son la buenas prácticas de la estadística en bioinformática en general, y metagenómica en particular.

Aunque el workshop finalizó este pasado viernes, ahora quedan unas semanas para la discusión de todos los temas que se han tratado a lo largo de esta semana con el finalidad de obtener algunas conclusion es del trabajo futuro a realizar.mtgw01photo

Este viaje lo hemos hecho Lucia y yo. Además de disfrutar de muchísimas de las charlas y del buen nivel del workshop, también hemos intentado en las tardes-noches disfrutar de la maravillosa ciudad de Cambridge con la visita a algunos colleges, y muy especialmente a la espectacular capilla del King’s College. ¡Una semana francamente interesante!

IMG_8048

Si nunca ha pasado, ¿qué probabilidad hay de que pase?

Soy un cirujano, y quiero llevar a cabo un cierto procedimiento quirúrgico novedoso. Hasta el momento, se ha realizado 10 veces en diferentes hospitales, y las 10 veces ha sido un éxito. El nivel de competencia de mi equipo es, como mínimo, similar al de los otros equipos que ya lo han llevado a cabo. Pero a la dirección del hospital, que me tiene que autorizar el procedimiento, le preocupa la probabilidad de que mi operación salga mal. Son pragmáticos. Si se me muere el paciente, y me demandan por negligencia, ¿podrá un testigo experto en estadística ayudar a exculparnos, a mí y al hospital, demostrando que el fracaso puede haberse debido al azar?

Para resolver este problema y curarse en salud, los médicos emplean la regla del tres:

si en una muestra de n experimentos independientes se ha obtenido éxito en todos ellos, podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n

Por lo tanto, en mi caso, entiendo que la probabilidad de fracasar puede ser de hasta el 30%. No sería tan raro que la operación saliera mal.

Vale. En realidad no soy médico ni administrador de hospital, sino matemático. Así que mi preocupación no es la demanda por negligencia, sino cómo se llega a esta “regla del tres” y qué significa. Porque lo del nivel de confianza…

Vamos por partes. Esta regla se obtiene con el siguiente argumento: véase, por ejemplo, [1]. Llamemos p a la probabilidad de fracaso. Queremos determinar el máximo valor de p que hace que una cadena de n éxitos sea muy poco probable, en concreto que tenga una probabilidad del 5%.  Igualamos (1-p)^n=0.05, resolvemos, p=1-0.05^{1/n}, y desarrollamos por Taylor

p=\dfrac{2.99573}{n}-\dfrac{4.48721}{n^2}+\ldots

Si tomamos el primer término de este desarrollo, obtenemos p\approx \dfrac{2.99573}{n}\approx \dfrac{3}{n}.

En resumen, lo que hemos demostrado es

si la probabilidad de fracaso es mayor que 1-0.05^{1/n}\approx 3/n, una cadena de n éxitos tiene una probabilidad inferior al 5%.

Esto es lo que quiere significar exactamente la expresión “podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n” en la frase anterior: si la probabilidad de fracasar es mayor que 3/n, la probabilidad de lo que hemos observado es menor del 5%. Este enfoque a la confianza corresponde al llamado método de Clopper-Pearson para calcular un intervalo de confianza de una proporción. Pero hay que tener claro que el intervalo de confianza en el sentido de Clopper-Pearson no es un intervalo de confianza en el sentido usual el término

Según la definición usual, un intervalo de confianza al 95% para p es una fórmula que, aplicada a secuencias (aleatorias e independientes) de repeticiones del procedimiento, produce intervalos de tal manera que la probabilidad de que un intervalo obtenido de esta manera contenga a p es del 95%. Se suele abusar del lenguaje, y decir que para una aplicación concreta de la fórmula, el intervalo producido contiene a p con una probabilidad del 95%, pero es un abuso del lenguaje: dados p y un intervalo, o el intervalo contiene a p o no: en el primer caso, la probabilidad de que la contenga es 1, en el segundo, 0. Pero como en este caso al final la fórmula sólo depende de n, podemos dar por bueno el abuso de lenguaje.

Por lo tanto, según esta definición, para que [0,3/n] sea un intervalo de confianza del 95% para p ha de pasar que la probabilidad de que p pertenezca a este intervalo sea del 95%. Pero lo que sabemos es que si p no pertenece a este intervalo, la probabilidad de 0 fracasos és (inferior al) 5%. Estamos ante una confusión de probabilidades condicionadas. Sea X el suceso p\in ]3/n,1] e Y el suceso “Tener 0 fracasos en una secuencia de n experimentos con probabilidad de fracaso p”. Hemos demostrado que P(Y|X)=0.05, y lo que querríamos es que P(X|Y)=0.05. Y ya sabemos que, al menos en principio,

P(X|Y)\neq P(Y|X)

Por lo tanto la regla del 3 se ha tomar con su significado correcto, que no es el usual para los intervalos de confianza.

Un añadido final para los que recuerden el cálculo básico de intervalos de confianza en su sentido usual. En los cursos de introducción a la estadística se suele explicar la fórmula de Laplace  para el intervalo de confianza de una probabilidad p. Por desgracia, esta fórmula aquí no puede aplicarse, porque produce un intervalo centrado en la proporción observada y por tanto estima que la probabilidad de fracaso es 0 y punto. Además, para que la fórmula de Laplace dé (aproximadamente) el intervalo de confianza requerido es necesario que la muestra sea grande y los números de éxitos y fracasos relativamente grandes. Por poner números e ir sobre seguro, tiene sentido aplicarlo sólo a secuencias de más de 100 repetiones del experimento, en las que obtengamos entre 10 y 90 fracasos.

En cambio, sí que se pueden usar otras fórmulas que no se suelen explicar en cursos introductorios. Por ejemplo, la fórmula de Wilson, derivada directamente del Teorema Central del Límite, que es fiable para muestra más pequeñas (pongamos, a partir de 30 repeticiones) y no impone restricciones a los números de éxitos y fracasos. Si la aplicamos a una secuencia de n repeticiones sin ningún fracaso, obtenemos obtenemos que el intervalo de confianza del 95% para la probabilidad p de fracaso va de 0 a, aproximadamente, \dfrac{3.84}{3.84+n}.  Por ejemplo, en el caso de los 10 éxitos consecutivos, da el intervalo [0,0.2774566], ligeramente más pesimista que la regla del 3. La ventaja de este intervalo \left[0, \dfrac{3.84}{3.84+n}\right] es que éste sí que es un intervalo de confianza al 95% en el sentido usual. Tampoco les costaría tanto a los médicos aprendérselo, ¿no?

Esta entrada participa en la Edición 5.2 del Carnaval de Matemáticas cuyo anfitrión es Matesdedavid.
Referencias

[1] J. A. Hanley, A. Lippman-Hand. “If nothing goes wrong, is everything all right? Interpreting zero numerators.” Journal of the American Medical Association 249 (1983), 1743-5.  Hoy se podía descargar de aquí.

¡Las primeras obritas de teatro estadístico, al fin disponibles!

¡Y nosotros sin saberlo! Resulta que ya hace más de un mes que algunas de las obritas de teatro que hemos escrito Patricia Trapero y yo, presentadas entre otros lugares en las JAEM (en castellano) y las JEM (en catalán) del verano pasado, han sido publicadas en formato ebook y se pueden descargar gratis, en catalán y en castellano y con el material complementario, de la página web de Ebooks UIB. Ha sido todo un parto: revisarlas a partir de la experiencia de diferentes representaciones, adaptarlas a ambos idiomas, pasar la revisión lingüística preceptiva, superar problemas técnicos con el formato electrónico… ¡Pero ya están aquí!

JAEMUOM

Mis alumnos de la UOM, representando una de las obras

Por ahora hay cuatro:

  • “Muriel y las ocho tazas de té”, sobre la supuesta capacidad de Muriel Bristol para detectar cómo se ha preparado el té, y cómo Ronald Fisher decidió comprobarlo
  • “El análisis”, típica historieta sobre el teorema de Bayes
  • “El poder de la oración… o no”, sobre la dificultad de diseñar experimentos
  • “Cuando los estadísticos nacen estrellados”, sobre la vida de Chester Bliss, el Frank Spencer de la estadística

y parece que están en la fase final de su periplo previo a publicarse:

  • “Me llamo Francis y soy un adicto”,  monólogos de Francis Galton sobre su adicción a contar (publiqué uno en este blog hace un tiempo)
  • “Pascal Consulting”, adivinad sobre qué.

Las otras dos que presentamos en las JAEM aún tardarán un tiempo, las queremos reescribir completamente.

Números en el fulcro

Una de las últimas incorporaciones a las familias distinguidas de números son los números balanceados (balancing numbers [1]). Se trata de aquellos números naturales tales que la suma de todos los números naturales a su izquierda es igual a la suma de algunos números inmediatamente a su derecha.

bal

Formalmente, n\in \mathbb{N} es balanceado cuando existe algún

r\geq 1 tal que 1+2+\cdots+(n-1)=(n+1)+(n+2)+\cdots +(n+r)

De esta igualdad se deduce que

\displaystyle\frac{n(n-1)}{2}=\frac{r(2n+r+1)}{2}\Longrightarrow \frac{n^2}{2}=\frac{n+2rn+r(r+1)}{2}

y finalmente

\displaystyle{}n^2=\frac{n^2+n+2rn+r(r+1)}{2}=\frac{(n+r)(n+r+1)}{2}

Por lo tanto, y éste es su interés primario, un número n es balanceado cuando es la raíz cuadrada exacta de un número triangular.

Pero a parte de esto, los números balanceados tienen algunas propiedades muy elegantes y relativamente fáciles de demostrar, que los convierten en buenos candidatos para ser protagonistas de problemas sobre combinatoria o inducción.

Por ejemplo, es fácil demostrar  [1] que si denotamos por B_n el n-ésimo número balanceado (siendo los dos primeros B_1=6 y B_2=35, aunque la recurrencia también funciona si aceptamos el 1 como balanceado, y partimos de B_0=1) entonces la sucesión (B_n)_n satisface la ecuación en diferencias

B_{n+2}=6B_{n+1}-B_{n}

de donde se obtiene que

\displaystyle{}B_{n}=\frac{1}{4\sqrt{2}}\left((3+2\sqrt{2})^n-(3-2\sqrt{2})^n\right)

Otras propiedades que se pueden demostrar con facilidad y que son bonitas de proponer como problemas [1,2]:

  • B_{2n}=B_n^2-B_{n-1}^2
  • Si m>n, (B_m+B_n)(B_m-B_n)=B_{m+n}\cdot B_{m-n}
  • B_{\mathrm{mcd}(n,m)}=\mathrm{mcd}(B_n,B_m)

Ah, y antes de que os animéis con un “¿Y si…?”. Ya se han propuesto todo tipo de generalizaciones de los números balanceados, involucrando potencias, progresiones aritméticas, progresiones geométricas,… Buscad en el Google Académico y veréis si vuestra idea ya la ha explotado/publicado alguien.

Esta entrada participa en la edición 5.1, Rey Pastor, del Carnaval de Matemáticas, alojada en el blog Tito Eliatron Dixit.

Referencias

  1. A. Behera, G. K. Panda, “On the square roots of triangular numbers.” The Fibonacci Quarterly 37 (1999), 98-105
  2. G. K. Panda, “Some fascinating properties of balancing numbers”. Fibonacci Numbers and their Applications 10 (2006), edición electrónica

Para empatar hay que ser irracional

Estoy seguro de que vais a reconocer la situación. En un casino, Ana juega contra la Banca sucesivas rondas de un juego, el que queráis. Ana empieza con, pongamos, 100 Euros. En cada ronda, Ana apuesta todo lo que tiene: si pierde, le da a la Banca un porcentaje fijo de lo que ha apostado, y si gana, entonces recibe de la Banca ese mismo porcentaje de lo que ha apostado. Así, en la primera ronda y suponiendo que se juega un 25% de su bote, si Ana la pierde, entonces se queda con 100-0.25·100=75 Euros, y si la gana, se queda con 100+0.25·100=125 Euros. El diagrama siguiente ilustra los posibles resultados de las tres primeras rondas para este porcentaje.

arbol

En general, si en un momento determinado Ana tiene X Euros y si denotamos por r el porcentaje (en tanto por uno) de ganancia o pérdida, entonces, si Ana gana la siguiente ronda, tendrá (1+r)X Euros, y si la pierde, tendrá (1-r)X Euros. De esta manera es fácil demostrar que lo que tiene Ana al cabo de n rondas sólo depende de cuántas ha ganado y de cuántas ha perdido, y no del orden en el que lo ha hecho. En concreto, si al cabo de n rondas ha ganado m rondas, tiene (1+r)^m(1-r)^{n-m}\cdot 100 Euros.

El otro día justamente leía sobre este juego en el libro “¿Pero esto también es matemática?” de Adrián Paenza, y me vino la duda: Tomando 0<r<1, y jugando al menos una ronda, ¿es posible que en algún momento Ana vuelva a tener 100 Euros justos? Como diría Adrián Paenza, pensadlo un rato antes de continuar.

¿Ya? Sigo.

Resulta que si r es racional, es imposible que Ana vuelva a tener 100 euros justos. En efecto, escribamos r como una fracción irreducible a/b, y planteemos la ecuación que representa que si Ana ha ganado m partidas y ha perdido n-m, vuelve a tener 100 Euros:

(1+\frac{a}{b})^m (1-\frac{a}{b})^{n-m}100=100

Si simplificamos y aprovechamos para quitar denominadores, obtenemos

(b+a)^m (b-a)^{n-m} = b^n

Sea ahora p un divisor primo de b. Como p divide a b^{n}, ha de dividir a b+a o a b-a, y por lo tanto (como divide a b) ha de dividir a a, lo que contradice la hipótesis de que a/b es una fracción irreducible.

¿Y si r es irracional? Entonces hay ocasiones en las que sí que puede empatar. Observemos para empezar que si m\leq n-m entonces

(1+r)^m(1-r)^{n-m} =(1-r^2)^m(1-r)^{n-2m} <1

Por lo tanto para poder empatar, Ana ha de tener un saldo a favor de partidas ganadas. Por otro lado, ha de perder alguna partida, o del contrario es imposible que “vuelva a tener” 100 Euros. El caso más sencillo es que gane dos partidas de tres. Y en este caso

(1+r)^2 (1-r)=1

corresponde a la ecuación

r^2 - r - 1=0

que tiene como soluciones \frac{1}{2}(-1\pm \sqrt{5}) y la positiva es 0.618… (la razón áurea menos 1). Por lo tanto, jugándose un 100(\Phi-1)\% del bote, puede empatar. Cómo se puede jugar una de manera exacta este porcentaje no es su problema 😉

En general, toda ecuación

(1+r)^m(1-r)^{n-m}=1,

con m>n-m>0, tiene alguna raíz r en el intervalo abierto ]0,1[: la función f(r)=(1+r)^m (1-r)^{n-m}-1 es tal que f(0)=0, f(1)=-1 y tiene un máximo local en r=\frac{n-2m}{n}, por lo que en algún punto entre este máximo local y 1 toma el valor 0.

¿Verdad que no lo llamáis Teorema del Cálculo Fundamental?

Porque lo fundamental es el teorema, no el hipotético cálculo que podáis hacer con él. Pues con el Teorema Central del Límite pasa lo mismo. Lo central es el teorema, no el límite, por lo que Central toca ir en medio y no al final, para evitar ambigüedades.

El nombre se lo puso George Pólya en 1935:

polya2

Gracias a la encorsetada construcción del alemán podemos ver que se refería a un teorema del límite que es central (el adjetivo Zentraler refiere a la parte final del nombre compuesto Grenzwertsatz, límite-teorema). También explica Pólya en la introducción que

Das Auftreten der Gaußschen Wahrscheinlichkeitsdichte e^{x^2} […] ist bekanntlich aus einem und demselben Grenzwertsatz zu erklären, der in der Wahrscheinlichkeitsrechnung eine zentrale Rolle spielt.

(y me reconoceréis que lo de Wahrscheinlichkeitsrechnung es impresionante). Google lo traduce más o menos como:

“La aparición de la densidad gaussiana de probabilidad e^{x^2} […] se sabe que se explica por un único Teorema del límite, que juega un paper central en Teoría de las Probabilidades”

¿De dónde viene pues la tendencia a poner el Central al final? Del francés. L. Le Cam lo explica de pasada en la página 79 de su “The central limit theorem around 1935” (Statistical Science 1 (1986), 78–91): los franceses lo han llamado durante muchos años “Théorème de la limite centrale” o incluso “centrée” porque consideraban que “describía el comportamiento del centro de la distribución, por oposición a sus colas”.

Todo esto viene a cuento porque estos días estoy revisando las transparencias del curso de Matemáticas II para biólogos y bioquímicos (básicamente, estadística inferencial y multivariante) y he decidido consultar cuál es la forma correcta en catalán del nombre de este teorema. Ya sé que los monohispanohablantes ni se os ocurre plantearos si hay un “nombre correcto” para un teorema. Pero tenéis que entender que el catalán es una lengua pequeña, rodeada geográficamente por los gigantes francés y español y amenazada globalmente por el inglés, por lo que a poco que nos descuidemos es muy fácil que perdamos nuestras construcciones propias en beneficio de estas lenguas globales. Para ayudarnos a evitarlo está el TERMCAT, que tiene como misión “garantizar el desarrollo y la integración de la terminología catalana en los sectores especializados y en la sociedad en general”. Así, cuando queremos saber cuál es la manera correcta de expresar en catalán alguna noción de alguna rama específica del conocimiento, por ejemplo matemáticas, es el TERMCAT lo que tenemos que consultar en primer lugar.

Pues bien, el TERMCAT reconoce como única construcción correcta “Teorema del límit central”. Supongo que por afrancesamiento del que lo decidió en su momento y desidia de los usuarios posteriores (no he descubierto América: por ejemplo, Pere Grima ya avisa de que lo que es central es el teorema en la Pregunta 54 de su “55 respuestas a dudas típicas de estadística“). Naturalmente, el TERMCAT sólo sugiere, no vendrá ningún policía lingüístico a aporrear la puerta de mi despacho porque use “Teorema central del límit”. Mientras tanto, haré la propuesta al TERMCAT, a través del Gabinet de Terminologia de la UIB, para que lo cambien. No será la primera vez.

Un consejo (de ultratumba) para jóvenes

Con unos días de diferencia me he enterado de la muerte de dos referentes de mis años de tesis: Strømme y Laksov. Descansen ambos en paz.

Stromme

Stein Arild Strømme

Stein Arild Strømme murió a finales de enero, a los 62 años, tras una larga lucha contra el cáncer que documentó en un blog que de vez en cuando leía traducido por Google para ver cómo iba. Sus teoremas con Geir Ellingsrud sobre la existencia de una descomposición celular del esquema de Hilbert \mathrm{Hilb}^k \mathbb{P}^2 (una variedad algebraica que parametriza los conjuntos de k puntos del plano proyectivo, incluyendo los conjuntos “degenerados” donde hay coincidencias de puntos) fueron el germen de mi tesis. Lo recuerdo alto, nórdico, amable, pacífico. Sus preprints de la Universidad de Bergen, de tapa naranja, que nos enviaba religiosamente me evocaban un lugar romántico de frío y nieve casi perpetuos, ideal para hacer matemáticas (me imagino que a él los preprints de la Universitat de Barcelona, amarillos, le evocaban un lugar romántico de clima agradable y mucho ambiente en las calles; Dios da pan a quien no tiene dientes).

laksov

Dan Laksov

Dan Laksov murió a finales de octubre, pero me enteré ayer por el Boletín dominical de la RSME. Tenía poco más de 70 años. Cuando lo conocí, a mediados de los ochenta, era el director del Instituto Mittag-Leffler, y un reconocido luchador  por los derechos humanos. Y hoy quiero recordar de él un consejo que me dió en un congreso y que me ha servido toda mi vida científica.

Mi inglés hablado no es bueno, y cuando era joven era peor. Cosas de la educación: mi francés es muy bueno pero nunca he estudiado inglés de manera sistemática y ha crecido salvaje. Además, no sé como está organizado mi cerebro, pero aun hoy el inglés compite con el francés en la zona que maneja los idiomas extranjeros, y a menudo me salen “francesadas” cuando hablo en inglés. En resumen, que a los veintipocos años, preparar una conferencia en inglés era para mi una montaña. Y en los congresos de Geometría Enumerativa a los que iba la cosa no eran presentaciones de 20 minutitos y proyectando un pdf como ahora, no. Las conferencias eran de una hora en pizarra.

sitges

Foto de familia del congreso de Sitges

Así que en una de esas, en el congreso de Geometría Enumerativa de Sitges en 1987, Laksov (nunca le llamé Dan, me imponía mucho respeto) me vio todo nervioso, y cuando le comenté que el motivo era mi charla, me dio un consejo: para dominar una charla, tras prepararla bien preparada, en algún momento de las 24 horas anteriores escribe palabra por palabra lo que dirás, incluyendo los chistes. Así lo hice. Mano de santo, chicos. Aunque con la edad mi capacidad para improvisar en inglés ha crecido a medida que mi sentido del ridículo ha disminuido, aun hoy lo hago con las charlas que quiero que salgan perfectas. Incluso en catalán o castellano.

He de decir que tras mi tesis, abandoné el campo de la geometría enumerativa, incluso las matemáticas consideradas serias, así que desde el 90 más o menos no volví a ver a ninguno de mis ídolos de la época: Laksov, Stromme, Kleiman, Piene…

Un último recuerdo para deprimirme notando que cuando Laksov me dió ese consejo era más joven que yo ahora.

Mankoff

Roz Chast, New Yorker (25 de octubre de 1993)

Si no consultas, no cites

—”Hola, me llamo Cesc y no siempre leo los artículos que cito.”

—”Hola, Cesc. No estás solo, Cesc.”

M.V. Simkin y V.P. Roychowdhury estimaron que los científicos sólo leemos un 20% de los artículos que citamos. Para ser precisos, estimaron que alrededor de un 80% de las citas a artículos célebres provienen de copiar la referencia de una bibliografía anterior sin consultar el original. Para llegar a esa conclusión, modelaron matemáticamente cómo se generan y propagan las erratas en las citas, suponiendo que:

  • cuando copiamos una referencia del original cometemos erratas con una cierta probabilidad,
  • cuando copiamos una referencia de otra bibliografía que contiene una errata sin consultar el original, mantenemos la errata,
  • si la referencia “copiada” tiene una errata pero consultamos el original, la detectamos y la corregimos.

A continuación, analizaron con su modelo los errores en las citas de algunos artículos muy citados, y a partir de dicho análisis llegaron a ese porcentaje. Desde entonces han publicado varios artículos refinando su modelo (el último aquí) con conclusiones similares.

Mi caso caería dentro de los considerados por Simkin y Roychowdhury. En los últimos dos años he trabajado con algunos amigos en problemas relacionados con el equilibrio de árboles filogenéticos. Por un árbol filogenético aquí me refiero a un árbol con raíz y con sus hojas etiquetadas con especies. Un árbol filogenético representa entonces una hipotética historia evolutiva de las especies asociadas a sus hojas partiendo de un ancestro en común (la raíz): las aristas representan la descendencia directa por mutaciones, y la flecha del tiempo va en el sentido de la raíz a las hojas. La siguiente figura (copiada de aquí) muestra dos árboles filogenéticos alternativos para un mismo conjunto de especies: en estos árboles concretos, la raíz es el ápice inferior y por lo tanto el tiempo discurre de abajo a arriba.

phylogenetic_tree

Como la forma de un árbol filogenético concreto es un reflejo de las características del proceso evolutivo subyacente, hay un cierto interés en filogenética por cuantificar las propiedades de esta forma mediante índices. Unos de los más usados son los llamados índices de equilibrio (balance indices, en inglés), que miden la tendencia en un árbol a que sus nodos estén equilibrados en el sentido de que los “hijos” de cada nodo tengan el mismo número de hojas descendientes. En este sentido, los árboles que se consideran más “desequilibrados” son las orugas (con la forma del árbol de la derecha de la figura inferior; si en el Árbol I de la figura superior quitáis el cerdo, obtenéis un árbol oruga de 6 hojas).

Uno de los índices más usados en este contexto es el llamado índice de Sackin S, en honor a M. J. Sackin. Si definimos la profundidad de una hoja como el número de nodos interiores en el camino de la raíz a la hoja, contando la raíz, entonces el índice de Sackin de un árbol filogenético es la suma de las profundidades de todas sus hojas. Es un buen índice, fácil de entender y de calcular, con una buena correlación entre su magnitud y el equilibrio del árbol. De hecho, su desequilibrio: a mayor índice de Sackin, más desequilibrado es el árbol. Además, es igual a la suma de las hojas descendientes de cada nodo interior, y siempre es bonito tener dos expresiones sencillas de un mismo índice.

Por ejemplo, para los árboles de la figura anterior (y sumando profundidades de izquierda a derecha)

S(Tree I)=1+2+4+4+4+5+5=25,     S(Tree II)=1+3+3+4+4+4+4=23

lo que indica que el árbol II está ligeramente más equilibrado que el I (gracias al cuarteto final, que en el árbol II define un subárbol simétrico).

La referencia obligada cuando se usa el índice de Sackin es

M. J. Sackin, “Good” and “bad” phenograms. Sys. Zool, 21 (1972), 225-226.

Pero claro, el índice de Sackin ya ha pasado a los libros de texto de filogenética, así que uno no va a buscar su formulación precisa en el artículo original, se fía de la referencia. Sobre todo si, como es mi caso, no se tiene acceso directo ni físico ni electrónico al texto completo del artículo de Sackin. Así, por ejemplo, J. Felsenstein en su “Inferring Phylogenies” (p. 563) dice que “Sackin (1972) sugirió usar o bien la varianza \sigma_N^2 de N_i para la hojas del árbol o bien su media \overline{N}, donde N_i es el número de nodos en el árbol por debajo de la hoja i.”

Hace unas semana al fin encargué por intercambio bibliotecario una copia del artículo de Sackin y resulta que no, que Sackin no sugiere nada ni define ningún índice. En su artículo de dos páginas asocia a cada árbol el vector de las profundidades de sus hoja, demuestra que este vector caracteriza la forma de un árbol binario (donde cada nodo interior tiene exactamente dos hijos: los de las dos figuras lo son), y observa que, en los árboles de la siguiente figura (extraída de su artículo), el árbol simétrico de la izquierda tiene las profundidades de sus hojas más pequeñas y menos variadas que la oruga de la derecha. Y punto. Ningún índice explícito basado en estas profundidades, ninguna sugerencia de cuantificar el tamaño y la variación de estas profundidades.

arbolsackin

¿Quién define pues el índice de Sackin? Hasta donde ha llegado mi búsqueda bibliográfica, la primera aparición del índice de Sackin es en el artículo sobre Tree Balance de K. T. Shao y R. R. Sokal en 1990 donde dicen (p. 266) “Sackin (1972) usó un vector b (de branching) para caracterizar un fenograma [un árbol filogenético binario] y medir su `utilidad'” y más adelante (p. 268) definen el “índice de Sackin” como lo hemos definido al principio. Por tanto, supongo que a partir de ahora para ser honrados citaremos (Sackin 1972, Shao-Sokal 1990).

Moraleja: no os fiéis de los libros de texto y las referencias celebres.

Ningún artículo citado en esta entrada ha sufrido el maltrato de no haber sido leído previamente.