Dos de cada tres estudiantes de la UIB, matriculados en carreras con muchos estudiantes. ¿Notición?

Estos días estoy meditando sobre aplicaciones de la paradoja de la amistad en el análisis de redes de interacciones de proteínas. Como Clara Grima ya explicó coj…mente esta paradoja en esta entrada de Cienciaxplora, voy a ahorraros los detalles. En todo caso, y en resumen, se trata del hecho que, para la mayoría de nosotros, nuestros amigos tienen, de media, más amigos que nosotros (y son más felices y más guapos que nosotros, y han ligado a lo largo de su vida más que nosotros y …). Por suerte, esto (normalmente) no tiene nada que ver con nuestra personalidad, sino que es un teorema de teoría de grafos atribuido a Scott Feld, que lo enunció, demostró y analizó en su artículo del 1991 titulado Why your friends have more friends than You do.

En realidad, esta paradoja viene de más lejos, de la llamada “paradoja del tamaño de la clase” que introdujeron el mismo Scott Feld y Bernard Grofman en un artículo de 1977 titulado Variation in class size, the class size paradox, and some consequences for students:

si escogemos al azar un estudiante de un centro, el tamaño esperado del curso en el que está matriculado es casi siempre estrictamente mayor que el tamaño medio de los cursos de su centro, y en todo caso nunca menor.

Además, en muchas distribuciones razonables de números de matriculados por curso, una gran mayoría de los estudiantes están matriculados en cursos más numerosos que la media (lo que les lleva, por comparación, al desánimo y al abandono de los estudios, según los autores; igual se lo podemos explicar a las comisiones de acreditación de los grados: “no es culpa nuestra que abandonen los estudios, es que no saben teoría de grafos y creen que son unos desgraciados por estar en cursos numerosos”).

Aquí viene la demostración. Sean x_1,\ldots, x_n los números de alumnos de los n cursos que ofrece un determinado centro. Entonces:

  • El valor medio de alumnos por curso es \overline{x}=(\sum_{i=1}^n x_i)/n
  • Pero si consultamos todos los estudiantes uno a uno y les pedimos cuántos estudiantes hay en su curso, y calculamos la media de los valores obtenidos, será otro cantar: para cada curso de x_i alumnos, habrá  x_i alumnos que contestarán “x_i”, por lo que cada respuesta  x_i aparecerá x_i veces. La suma total de respuestas será, por lo tanto, \overbrace{x_1+\cdots+x_1}^{x_1} +\cdots+ \overbrace{x_n+\cdots+x_n}^{x_n}=\sum_{i=1}^n x_i^2. La respuesta media por alumno (es decir, el número medio de matriculados en el curso en el que está matriculado un alumno escogido al azar), llamémosle \overline{x}_{al}, se obtendrá dividiendo esta suma por el número de respuestas:  \overline{x}_{al}=(\sum_{i=1}^n x_i^2)/(\sum_{i=1}^n x_i)

Si ahora restamos \overline{x}_{al}-\overline{x}=(\sum_{i=1}^n x_i^2)/(\sum_{i=1}^n x_i)-(\sum_{i=1}^n x_i)/n, un pequeño cálculo algebraico muestra que es igual a la varianza \mathrm{var}(x) de x_1,\ldots, x_n partido por su media \overline{x}. Y ahora es el momento de recordar que la varianza siempre es positiva, y es 0 sólo cuando x_1=\cdots=x_n. Por lo tanto, salvo en este caso, el número medio de matriculados en el curso de un estudiante escogido al azar será siempre mayor que el número medio de matriculados por curso. Y cuánto mayor sea la varianza, es decir, cuánto más variados sean los números x_1,\ldots, x_n, mayor será el cociente entre estas dos medias.

Vale, un experimento. He sacado de aquí los números de matriculados en los 30 grados de la UIB en el curso 2013-14 (los matriculados en dobles titulaciones los he contado en cada una de los grados involucrados). Estos números van de los 1228 matriculados en Administración de Empresas a los 93 matriculados en Matemáticas. He calculado el número medio de estudiantes por grado, \overline{x}, y el número medio de estudiantes matriculados en el grado de un estudiante aleatorio, \overline{x}_{al}. Los resultados (redondeados) han sido \overline{x}=366\overline{x}_{al}=593: un estudiante está matriculado de media en un grado de 593 estudiantes, pero el número medio de estudiantes por grado es de 366. Además, un 66.5% de los estudiantes de la UIB están matriculados en grados con un número de estudiantes mayor que la media. Es raro que algunos periódicos tradicionalmente críticos por defecto con la UIB no lo hayan publicado nunca.

El código R, por si queréis confirmar los números, es muy sencillo.

 ests.UIB=c(1228,1042,1028,623,612,560,497,467,432,412,400,351,339,
252,243,231,228,226,215,180,174,154,169,156,146,140,134,131,116,93)
#Media de alumnos por grado
mean(ests.UIB)
#Media de alumnos por grado desde el punto de vista del alumno
sum(ests.UIB^2)/sum(ests.UIB)
#Porcentaje de alumnos en grados más numerosos que la media
sum(ests.UIB[ests.UIB>mean(ests.UIB)])/sum(ests.UIB)

En cambio no sé cómo usar la paradoja de la amistad para explicar la percepción de los estudiantes de que sus amigos siempre tienen menos tareas que ellos para hacer en casa.

 

Advertisements

El 26 y los capicúas

Qué mejor día para quitar las telarañas a este blog que el 26 de febrero, 262, capicúa.
Aunque en realidad yo quería hablar de otro 26-2 capicúa, el 26^2=676. Resulta que el 26 es el menor número natural no capicúa que elevado al cuadrado da capicúa. El siguiente ya es el 264, que elevado al cuadrado da 69696.

Los números capicúas son muy populares en matemática recreativa, y recientemente se ha demostrado que también son relevantes en aritmética. Justo este pasado mes de agosto, William Banks, de la Univ. de Missouri, demostró que todo número natural es igual a la suma de números capicúas. Me podríais decir: bah, el 1 es capicúa y todo número es suma de unos, mira tú. No es esto. Bueno, sí, tendríais razón, pero Banks demostró algo más concreto: que, por grande que sea el número natural que nos den, siempre podemos encontrar una familia de, como máximo, 49 números capicúas cuya suma sea el número dado.

Hay muchas preguntas sobre potencias capicúas para las que los matemáticos desconocemos la respuesta. Por ejemplo, cuántos números no capicúas hay cuyo cuadrado sea capicúa? Hay infinitos? No se sabe. El más grande que se conoce tiene 28 dígitos, y su cuadrado, 55, y fue descubierto en 2008 por Feng Yuan, un informático aficionado a este tipo de cuestiones del estado de Washington, pero no sabemos si hay otros más adelante.

En cambio, es fácil producir tantos números capicúas con cuadrado capicúa como queráis: por ejemplo, tomad cualquier número formado por un 1, seguido de una secuencia de ceros y acabado con otro 1: 11, 101, 1001, 10001 etc. El cuadrado de un número de estos se obtiene siempre concatenando dos copias del número y cambiando el 11 que aparece en medio por un 2; es un buen ejercicio demostrarlo. Y en particular, como vemos, este cuadrado es capicúa.

Hay otras preguntas sobre números capicúas que permanecen abiertas. Por ejemplo, sólo se conoce un número no capicúa que elevado al cubo dé capicúa, el 2201; no se sabe si hay más. No se conoce ningún número no capicúa que elevado a la cuarta potencia dé capicúa, y no se sabe si existen. Y, para rematarlo, no se conoce ningún número diferente de 1, capicúa o no, tanto da, ninguno, que elevado a 5 o más dé capicúa. Antes de que os pongáis con la calculadora a buscar, tengo que avisaros de que ya se han comprobado todos los números de hasta 14 cifras y todas las potencias hasta 10. Será el tipo de problemas para los que decía Erdös que la matemática actual aún no está preparada?

Esta entrada participa en la Edición 7.1 del Carnaval de Matemáticas cuyo anfitrión es Tito Eliatron Dixit.

Añadido en prensa: Al poco de publicar la entrada me entero por Gaussianos de que  Javier Cilleruelo, de la Universidad Autónoma de Madrid, ha reducido la cota de Banks de 49 a 3: todo número natural es suma de como máximo 3 capicúas.

La simetría también es buena… en el cáncer

Las caras simétricas nos parecen más bonitas. Las simetrías en las decoraciones de la Alhambra y otros edificios árabes nos resultan fascinantes. 196.000 resultados en Google de “symmetry is good”. Bueno, pues resulta que un tipo concreto de simetría también es buena señal en el cáncer.

Para algunos tipos de cáncer, se han publicado sus redes de interacciones de proteínas (PPI) en la base de datos KEGG PATHWAY. Estas redes representan el conocimiento actual sobre las interacciones entre proteínas en células cancerosas. Desde el punto de vista matemático, son grafos no dirigidos relativamente grandes, sin bucles ni aristas múltiples. Una línea de investigación muy popular en biología computacional de sistemas es la reconstrucción automática de este tipo de redes a partir de datos experimentales, y el estudio y comparación de los grafos resultantes.

Una propiedad que se puede estudiar en un grafo es su simetría. Se dice que un grafo es simétrico cuando tiene algún automorfismo diferente de la identidad, y más simétrico es cuantos más automorfismos tiene, ea decir, cuanto más fácil sea intercambiar algunos de sus nodos sin que se modifique la estructura abstracta de conexiones que representa.Es bien sabido que si escogemos al azar (de manera equiprobable) un grafo de n nodos, la probabilidad de que sea simétrico tiende a 0 a medida que n tiende a \infty. En cambio, las grandes redes complejas de la vida real (desde Internet a las redes biomoleculars) tienen grupos de automorfismos muy grandes, como se puede comprobar en la tabla 1 de Symmetry in Complex Networks de B. MacArthur, R. Sánchez-García y J. Anderson. Esto se puede tomar como un síntoma más de que las redes complejas de la vida real son poco aleatorias.

Una manera de medir la simetría de un grafo G de n nodos es mediante el siguiente índice, que cuantifica la fracción  de automorfismos en el conjunto total de permutaciones de sus vértices:

\displaystyle\beta(G)=\left(\frac{|Aut(G)|}{n!}\right)^{\frac{1}{n}}

En un artículo colgado en el arXiv el pasado mes de mayo, P. Hinow, A. Rietman, J. Tuszynski han calculado este índice \beta para las redes PPI de algunos tipos de cáncer, y los han comparado con su probabilidad estimada p de supervivencia a los 5 años (que se puede obtener del Surveillance, Epidemiology, and End Results Program). Su conclusión se resume en el gráfico siguiente:

regrsim

Este gráfico muestra una clara correlación positiva entre la probabilidad de supervivencia y el índice de simetría \beta: a más simétrico, más benigno. El coeficiente de determinación R^2 que obtienen es de 0.52. No es para echar las campanas al vuelo, pero dados por un lado la gran imprecisión en la estimación de la mortalidad para los diferentes tipos de cáncer que se obtiene del SEER, y por otro nuestro desconocimiento del detalle completo de las redes PPI, la correlación que obtienen se puede considerar significativa.

So what? Bueno, es curioso. Cuánto más simétrica es una red PPI, más reemplazables son sus elementos por otras proteínas en la misma red, lo que la vuelve más robusta a fallos cuando alguna proteína se elimina del sistema por ejemplo mediante algún medicamento. Que esta propiedad esté correlacionada positivamente con la probabilidad de supervivencia a 5 años va completamente en contra de nuestra intuición, y muestra que aún nos falta mucho por aprender sobre el comportamiento del cáncer.

Una semana en el Isaac Newton Institute

La semana pasada participamos en el workshop: Mathematical, Statistical and Computational Aspects of the New Science of Metagenomics. Fueron cinco dias intensos, de muchas y buenas charlas de metagenómica, nueva rama del mundo de la biología computacional que estudia el conjunto de genomas de un determinado entorno directamente a partir de muestras de ese ambiente, sin necesidad de aislar y cultivar esas especies.  IMG_7618El workshop, así como el resto de reuniones y sesiones que continuaran a lo largo de las próximas semanas, lo han organizado  Wally Gilks (University of Leeds), Daniel Huson (Universität Tübingen), Elisa Loza (Rothamsted Research), Gabriel Valiente (Universitat Politècnica de Catalunya) y Tandy Warnow (University of Texas at Austin) junto con el Isaac Newton Institute programme Mathematical, Statistical and Computational Aspects of the New Science of Metagenomics.

La idea de este programa es reunir investigadores de distintas ramas de la metagenómica para poner en común sus puntos de vista y discutir sobre el futuro de la metagenómica. Para ello, se ha dedicado la primera semana  de este programa a la explicación y puesta en común de los trabajos realizados por los distintos investigadores, para en las próximas semanas pasar a una lluvia de ideas, discusión y finalmente algunas conclusiones del trabajo futuro a realizar.

Durante la semana pudimos disfrutar de buenas y diversas charlas. Inició la sesión Meyer F. del Argonne National Laboratory (USA), titulada Lessons learned from operating a bit metagenomics resource, en la que pudimos disfrutar de una excepcional descripción de lo que ha sido la investigación en metagenómica por el momento y, sobretodo, de los retos y dificultades que conllevan la necesidad de utilizar bases de datos de gran magnitud.   El segundo día se dedicó enteramente al problema de ensamblaje de secuencias. Diversos conferenciantes mostraron los distintos algoritmos y técnicas usadas para dicho fin, poniendo de manifiesto las dificultades inherentes al ensamblaje dentro del mundo de la metagenómica.

El tercer día lo empezamos con una charla de E. Rubin, del Joint Genome Institut Lawrence Berkeley National Laboratory, (USA). Edward nos impresionó con una charla en la que cuestionó la separación en tres dominios de las especies y animó a los investigadores asistentes a usar las herramientas de la metagenómica para encontrar un nuevo dominio y nuevas especies, principalmente entre las bacterias y archaeas. Durante el resto del día, así como el día siguiente, tuvimos charlas también interesantes sobre metabolismo, proteómica y transcripción de distintas comunidades de microbios estudiadas desde el punto de vista de la metagenómica, con algunas conclusiones muy interesantes sobre los distintos ecosistemas estudiados y algunas aplicaciones médicas.

Tal y como se acostumbra a hacer en los workshops, el tercer día finalizó con una cena de gala, en la que tuvimos el placer de hablar tranquila y distendidamente con algunos de los participantes. La disposición del comedor, una gran mesa ovalada en la que estábamos sentados todos los comensales, posiblemente el hecho de que el comedor fuera la sala de lectura del Cambridge Union Society, e indiscutiblemente, la compañía de los comensales, hicieron que la velada fuera realmente agradable.

La tarde del cuarto día se dedicó a la presentación de distintas herramientas informáticas para la metagenómica, poniendo de manifiesto los retos alcanzados, pero también los objetivos que todavía no se han conseguido.   Finalmente, el último día de este workshop se dedicó, enteramente, a los métodos estadísticos que se han usado por el momento en el campo de la metagenómica. Además de algunas charlas de métodos de aprendizaje automático aplicados a la metagenómica, cabe destacar la charla de S. Holmes, de la Stanford University, en la que también trató cuales son la buenas prácticas de la estadística en bioinformática en general, y metagenómica en particular.

Aunque el workshop finalizó este pasado viernes, ahora quedan unas semanas para la discusión de todos los temas que se han tratado a lo largo de esta semana con el finalidad de obtener algunas conclusion es del trabajo futuro a realizar.mtgw01photo

Este viaje lo hemos hecho Lucia y yo. Además de disfrutar de muchísimas de las charlas y del buen nivel del workshop, también hemos intentado en las tardes-noches disfrutar de la maravillosa ciudad de Cambridge con la visita a algunos colleges, y muy especialmente a la espectacular capilla del King’s College. ¡Una semana francamente interesante!

IMG_8048

Si nunca ha pasado, ¿qué probabilidad hay de que pase?

Soy un cirujano, y quiero llevar a cabo un cierto procedimiento quirúrgico novedoso. Hasta el momento, se ha realizado 10 veces en diferentes hospitales, y las 10 veces ha sido un éxito. El nivel de competencia de mi equipo es, como mínimo, similar al de los otros equipos que ya lo han llevado a cabo. Pero a la dirección del hospital, que me tiene que autorizar el procedimiento, le preocupa la probabilidad de que mi operación salga mal. Son pragmáticos. Si se me muere el paciente, y me demandan por negligencia, ¿podrá un testigo experto en estadística ayudar a exculparnos, a mí y al hospital, demostrando que el fracaso puede haberse debido al azar?

Para resolver este problema y curarse en salud, los médicos emplean la regla del tres:

si en una muestra de n experimentos independientes se ha obtenido éxito en todos ellos, podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n

Por lo tanto, en mi caso, entiendo que la probabilidad de fracasar puede ser de hasta el 30%. No sería tan raro que la operación saliera mal.

Vale. En realidad no soy médico ni administrador de hospital, sino matemático. Así que mi preocupación no es la demanda por negligencia, sino cómo se llega a esta “regla del tres” y qué significa. Porque lo del nivel de confianza…

Vamos por partes. Esta regla se obtiene con el siguiente argumento: véase, por ejemplo, [1]. Llamemos p a la probabilidad de fracaso. Queremos determinar el máximo valor de p que hace que una cadena de n éxitos sea muy poco probable, en concreto que tenga una probabilidad del 5%.  Igualamos (1-p)^n=0.05, resolvemos, p=1-0.05^{1/n}, y desarrollamos por Taylor

p=\dfrac{2.99573}{n}-\dfrac{4.48721}{n^2}+\ldots

Si tomamos el primer término de este desarrollo, obtenemos p\approx \dfrac{2.99573}{n}\approx \dfrac{3}{n}.

En resumen, lo que hemos demostrado es

si la probabilidad de fracaso es mayor que 1-0.05^{1/n}\approx 3/n, una cadena de n éxitos tiene una probabilidad inferior al 5%.

Esto es lo que quiere significar exactamente la expresión “podemos afirmar con un nivel de confianza del 95% que la probabilidad de fracasar es menor o igual a 3/n” en la frase anterior: si la probabilidad de fracasar es mayor que 3/n, la probabilidad de lo que hemos observado es menor del 5%. Este enfoque a la confianza corresponde al llamado método de Clopper-Pearson para calcular un intervalo de confianza de una proporción. Pero hay que tener claro que el intervalo de confianza en el sentido de Clopper-Pearson no es un intervalo de confianza en el sentido usual el término

Según la definición usual, un intervalo de confianza al 95% para p es una fórmula que, aplicada a secuencias (aleatorias e independientes) de repeticiones del procedimiento, produce intervalos de tal manera que la probabilidad de que un intervalo obtenido de esta manera contenga a p es del 95%. Se suele abusar del lenguaje, y decir que para una aplicación concreta de la fórmula, el intervalo producido contiene a p con una probabilidad del 95%, pero es un abuso del lenguaje: dados p y un intervalo, o el intervalo contiene a p o no: en el primer caso, la probabilidad de que la contenga es 1, en el segundo, 0. Pero como en este caso al final la fórmula sólo depende de n, podemos dar por bueno el abuso de lenguaje.

Por lo tanto, según esta definición, para que [0,3/n] sea un intervalo de confianza del 95% para p ha de pasar que la probabilidad de que p pertenezca a este intervalo sea del 95%. Pero lo que sabemos es que si p no pertenece a este intervalo, la probabilidad de 0 fracasos és (inferior al) 5%. Estamos ante una confusión de probabilidades condicionadas. Sea X el suceso p\in ]3/n,1] e Y el suceso “Tener 0 fracasos en una secuencia de n experimentos con probabilidad de fracaso p”. Hemos demostrado que P(Y|X)=0.05, y lo que querríamos es que P(X|Y)=0.05. Y ya sabemos que, al menos en principio,

P(X|Y)\neq P(Y|X)

Por lo tanto la regla del 3 se ha tomar con su significado correcto, que no es el usual para los intervalos de confianza.

Un añadido final para los que recuerden el cálculo básico de intervalos de confianza en su sentido usual. En los cursos de introducción a la estadística se suele explicar la fórmula de Laplace  para el intervalo de confianza de una probabilidad p. Por desgracia, esta fórmula aquí no puede aplicarse, porque produce un intervalo centrado en la proporción observada y por tanto estima que la probabilidad de fracaso es 0 y punto. Además, para que la fórmula de Laplace dé (aproximadamente) el intervalo de confianza requerido es necesario que la muestra sea grande y los números de éxitos y fracasos relativamente grandes. Por poner números e ir sobre seguro, tiene sentido aplicarlo sólo a secuencias de más de 100 repetiones del experimento, en las que obtengamos entre 10 y 90 fracasos.

En cambio, sí que se pueden usar otras fórmulas que no se suelen explicar en cursos introductorios. Por ejemplo, la fórmula de Wilson, derivada directamente del Teorema Central del Límite, que es fiable para muestra más pequeñas (pongamos, a partir de 30 repeticiones) y no impone restricciones a los números de éxitos y fracasos. Si la aplicamos a una secuencia de n repeticiones sin ningún fracaso, obtenemos obtenemos que el intervalo de confianza del 95% para la probabilidad p de fracaso va de 0 a, aproximadamente, \dfrac{3.84}{3.84+n}.  Por ejemplo, en el caso de los 10 éxitos consecutivos, da el intervalo [0,0.2774566], ligeramente más pesimista que la regla del 3. La ventaja de este intervalo \left[0, \dfrac{3.84}{3.84+n}\right] es que éste sí que es un intervalo de confianza al 95% en el sentido usual. Tampoco les costaría tanto a los médicos aprendérselo, ¿no?

Esta entrada participa en la Edición 5.2 del Carnaval de Matemáticas cuyo anfitrión es Matesdedavid.
Referencias

[1] J. A. Hanley, A. Lippman-Hand. “If nothing goes wrong, is everything all right? Interpreting zero numerators.” Journal of the American Medical Association 249 (1983), 1743-5.  Hoy se podía descargar de aquí.

¡Las primeras obritas de teatro estadístico, al fin disponibles!

¡Y nosotros sin saberlo! Resulta que ya hace más de un mes que algunas de las obritas de teatro que hemos escrito Patricia Trapero y yo, presentadas entre otros lugares en las JAEM (en castellano) y las JEM (en catalán) del verano pasado, han sido publicadas en formato ebook y se pueden descargar gratis, en catalán y en castellano y con el material complementario, de la página web de Ebooks UIB. Ha sido todo un parto: revisarlas a partir de la experiencia de diferentes representaciones, adaptarlas a ambos idiomas, pasar la revisión lingüística preceptiva, superar problemas técnicos con el formato electrónico… ¡Pero ya están aquí!

JAEMUOM

Mis alumnos de la UOM, representando una de las obras

Por ahora hay cuatro:

  • “Muriel y las ocho tazas de té”, sobre la supuesta capacidad de Muriel Bristol para detectar cómo se ha preparado el té, y cómo Ronald Fisher decidió comprobarlo
  • “El análisis”, típica historieta sobre el teorema de Bayes
  • “El poder de la oración… o no”, sobre la dificultad de diseñar experimentos
  • “Cuando los estadísticos nacen estrellados”, sobre la vida de Chester Bliss, el Frank Spencer de la estadística

y parece que están en la fase final de su periplo previo a publicarse:

  • “Me llamo Francis y soy un adicto”,  monólogos de Francis Galton sobre su adicción a contar (publiqué uno en este blog hace un tiempo)
  • “Pascal Consulting”, adivinad sobre qué.

Las otras dos que presentamos en las JAEM aún tardarán un tiempo, las queremos reescribir completamente.

Números en el fulcro

Una de las últimas incorporaciones a las familias distinguidas de números son los números balanceados (balancing numbers [1]). Se trata de aquellos números naturales tales que la suma de todos los números naturales a su izquierda es igual a la suma de algunos números inmediatamente a su derecha.

bal

Formalmente, n\in \mathbb{N} es balanceado cuando existe algún

r\geq 1 tal que 1+2+\cdots+(n-1)=(n+1)+(n+2)+\cdots +(n+r)

De esta igualdad se deduce que

\displaystyle\frac{n(n-1)}{2}=\frac{r(2n+r+1)}{2}\Longrightarrow \frac{n^2}{2}=\frac{n+2rn+r(r+1)}{2}

y finalmente

\displaystyle{}n^2=\frac{n^2+n+2rn+r(r+1)}{2}=\frac{(n+r)(n+r+1)}{2}

Por lo tanto, y éste es su interés primario, un número n es balanceado cuando es la raíz cuadrada exacta de un número triangular.

Pero a parte de esto, los números balanceados tienen algunas propiedades muy elegantes y relativamente fáciles de demostrar, que los convierten en buenos candidatos para ser protagonistas de problemas sobre combinatoria o inducción.

Por ejemplo, es fácil demostrar  [1] que si denotamos por B_n el n-ésimo número balanceado (siendo los dos primeros B_1=6 y B_2=35, aunque la recurrencia también funciona si aceptamos el 1 como balanceado, y partimos de B_0=1) entonces la sucesión (B_n)_n satisface la ecuación en diferencias

B_{n+2}=6B_{n+1}-B_{n}

de donde se obtiene que

\displaystyle{}B_{n}=\frac{1}{4\sqrt{2}}\left((3+2\sqrt{2})^n-(3-2\sqrt{2})^n\right)

Otras propiedades que se pueden demostrar con facilidad y que son bonitas de proponer como problemas [1,2]:

  • B_{2n}=B_n^2-B_{n-1}^2
  • Si m>n, (B_m+B_n)(B_m-B_n)=B_{m+n}\cdot B_{m-n}
  • B_{\mathrm{mcd}(n,m)}=\mathrm{mcd}(B_n,B_m)

Ah, y antes de que os animéis con un “¿Y si…?”. Ya se han propuesto todo tipo de generalizaciones de los números balanceados, involucrando potencias, progresiones aritméticas, progresiones geométricas,… Buscad en el Google Académico y veréis si vuestra idea ya la ha explotado/publicado alguien.

Esta entrada participa en la edición 5.1, Rey Pastor, del Carnaval de Matemáticas, alojada en el blog Tito Eliatron Dixit.

Referencias

  1. A. Behera, G. K. Panda, “On the square roots of triangular numbers.” The Fibonacci Quarterly 37 (1999), 98-105
  2. G. K. Panda, “Some fascinating properties of balancing numbers”. Fibonacci Numbers and their Applications 10 (2006), edición electrónica

Para empatar hay que ser irracional

Estoy seguro de que vais a reconocer la situación. En un casino, Ana juega contra la Banca sucesivas rondas de un juego, el que queráis. Ana empieza con, pongamos, 100 Euros. En cada ronda, Ana apuesta todo lo que tiene: si pierde, le da a la Banca un porcentaje fijo de lo que ha apostado, y si gana, entonces recibe de la Banca ese mismo porcentaje de lo que ha apostado. Así, en la primera ronda y suponiendo que se juega un 25% de su bote, si Ana la pierde, entonces se queda con 100-0.25·100=75 Euros, y si la gana, se queda con 100+0.25·100=125 Euros. El diagrama siguiente ilustra los posibles resultados de las tres primeras rondas para este porcentaje.

arbol

En general, si en un momento determinado Ana tiene X Euros y si denotamos por r el porcentaje (en tanto por uno) de ganancia o pérdida, entonces, si Ana gana la siguiente ronda, tendrá (1+r)X Euros, y si la pierde, tendrá (1-r)X Euros. De esta manera es fácil demostrar que lo que tiene Ana al cabo de n rondas sólo depende de cuántas ha ganado y de cuántas ha perdido, y no del orden en el que lo ha hecho. En concreto, si al cabo de n rondas ha ganado m rondas, tiene (1+r)^m(1-r)^{n-m}\cdot 100 Euros.

El otro día justamente leía sobre este juego en el libro “¿Pero esto también es matemática?” de Adrián Paenza, y me vino la duda: Tomando 0<r<1, y jugando al menos una ronda, ¿es posible que en algún momento Ana vuelva a tener 100 Euros justos? Como diría Adrián Paenza, pensadlo un rato antes de continuar.

¿Ya? Sigo.

Resulta que si r es racional, es imposible que Ana vuelva a tener 100 euros justos. En efecto, escribamos r como una fracción irreducible a/b, y planteemos la ecuación que representa que si Ana ha ganado m partidas y ha perdido n-m, vuelve a tener 100 Euros:

(1+\frac{a}{b})^m (1-\frac{a}{b})^{n-m}100=100

Si simplificamos y aprovechamos para quitar denominadores, obtenemos

(b+a)^m (b-a)^{n-m} = b^n

Sea ahora p un divisor primo de b. Como p divide a b^{n}, ha de dividir a b+a o a b-a, y por lo tanto (como divide a b) ha de dividir a a, lo que contradice la hipótesis de que a/b es una fracción irreducible.

¿Y si r es irracional? Entonces hay ocasiones en las que sí que puede empatar. Observemos para empezar que si m\leq n-m entonces

(1+r)^m(1-r)^{n-m} =(1-r^2)^m(1-r)^{n-2m} <1

Por lo tanto para poder empatar, Ana ha de tener un saldo a favor de partidas ganadas. Por otro lado, ha de perder alguna partida, o del contrario es imposible que “vuelva a tener” 100 Euros. El caso más sencillo es que gane dos partidas de tres. Y en este caso

(1+r)^2 (1-r)=1

corresponde a la ecuación

r^2 - r - 1=0

que tiene como soluciones \frac{1}{2}(-1\pm \sqrt{5}) y la positiva es 0.618… (la razón áurea menos 1). Por lo tanto, jugándose un 100(\Phi-1)\% del bote, puede empatar. Cómo se puede jugar una de manera exacta este porcentaje no es su problema 😉

En general, toda ecuación

(1+r)^m(1-r)^{n-m}=1,

con m>n-m>0, tiene alguna raíz r en el intervalo abierto ]0,1[: la función f(r)=(1+r)^m (1-r)^{n-m}-1 es tal que f(0)=0, f(1)=-1 y tiene un máximo local en r=\frac{n-2m}{n}, por lo que en algún punto entre este máximo local y 1 toma el valor 0.

¿Verdad que no lo llamáis Teorema del Cálculo Fundamental?

Porque lo fundamental es el teorema, no el hipotético cálculo que podáis hacer con él. Pues con el Teorema Central del Límite pasa lo mismo. Lo central es el teorema, no el límite, por lo que Central toca ir en medio y no al final, para evitar ambigüedades.

El nombre se lo puso George Pólya en 1935:

polya2

Gracias a la encorsetada construcción del alemán podemos ver que se refería a un teorema del límite que es central (el adjetivo Zentraler refiere a la parte final del nombre compuesto Grenzwertsatz, límite-teorema). También explica Pólya en la introducción que

Das Auftreten der Gaußschen Wahrscheinlichkeitsdichte e^{x^2} […] ist bekanntlich aus einem und demselben Grenzwertsatz zu erklären, der in der Wahrscheinlichkeitsrechnung eine zentrale Rolle spielt.

(y me reconoceréis que lo de Wahrscheinlichkeitsrechnung es impresionante). Google lo traduce más o menos como:

“La aparición de la densidad gaussiana de probabilidad e^{x^2} […] se sabe que se explica por un único Teorema del límite, que juega un paper central en Teoría de las Probabilidades”

¿De dónde viene pues la tendencia a poner el Central al final? Del francés. L. Le Cam lo explica de pasada en la página 79 de su “The central limit theorem around 1935” (Statistical Science 1 (1986), 78–91): los franceses lo han llamado durante muchos años “Théorème de la limite centrale” o incluso “centrée” porque consideraban que “describía el comportamiento del centro de la distribución, por oposición a sus colas”.

Todo esto viene a cuento porque estos días estoy revisando las transparencias del curso de Matemáticas II para biólogos y bioquímicos (básicamente, estadística inferencial y multivariante) y he decidido consultar cuál es la forma correcta en catalán del nombre de este teorema. Ya sé que los monohispanohablantes ni se os ocurre plantearos si hay un “nombre correcto” para un teorema. Pero tenéis que entender que el catalán es una lengua pequeña, rodeada geográficamente por los gigantes francés y español y amenazada globalmente por el inglés, por lo que a poco que nos descuidemos es muy fácil que perdamos nuestras construcciones propias en beneficio de estas lenguas globales. Para ayudarnos a evitarlo está el TERMCAT, que tiene como misión “garantizar el desarrollo y la integración de la terminología catalana en los sectores especializados y en la sociedad en general”. Así, cuando queremos saber cuál es la manera correcta de expresar en catalán alguna noción de alguna rama específica del conocimiento, por ejemplo matemáticas, es el TERMCAT lo que tenemos que consultar en primer lugar.

Pues bien, el TERMCAT reconoce como única construcción correcta “Teorema del límit central”. Supongo que por afrancesamiento del que lo decidió en su momento y desidia de los usuarios posteriores (no he descubierto América: por ejemplo, Pere Grima ya avisa de que lo que es central es el teorema en la Pregunta 54 de su “55 respuestas a dudas típicas de estadística“). Naturalmente, el TERMCAT sólo sugiere, no vendrá ningún policía lingüístico a aporrear la puerta de mi despacho porque use “Teorema central del límit”. Mientras tanto, haré la propuesta al TERMCAT, a través del Gabinet de Terminologia de la UIB, para que lo cambien. No será la primera vez.