Si no consultas, no cites

—”Hola, me llamo Cesc y no siempre leo los artículos que cito.”

—”Hola, Cesc. No estás solo, Cesc.”

M.V. Simkin y V.P. Roychowdhury estimaron que los científicos sólo leemos un 20% de los artículos que citamos. Para ser precisos, estimaron que alrededor de un 80% de las citas a artículos célebres provienen de copiar la referencia de una bibliografía anterior sin consultar el original. Para llegar a esa conclusión, modelaron matemáticamente cómo se generan y propagan las erratas en las citas, suponiendo que:

  • cuando copiamos una referencia del original cometemos erratas con una cierta probabilidad,
  • cuando copiamos una referencia de otra bibliografía que contiene una errata sin consultar el original, mantenemos la errata,
  • si la referencia “copiada” tiene una errata pero consultamos el original, la detectamos y la corregimos.

A continuación, analizaron con su modelo los errores en las citas de algunos artículos muy citados, y a partir de dicho análisis llegaron a ese porcentaje. Desde entonces han publicado varios artículos refinando su modelo (el último aquí) con conclusiones similares.

Mi caso caería dentro de los considerados por Simkin y Roychowdhury. En los últimos dos años he trabajado con algunos amigos en problemas relacionados con el equilibrio de árboles filogenéticos. Por un árbol filogenético aquí me refiero a un árbol con raíz y con sus hojas etiquetadas con especies. Un árbol filogenético representa entonces una hipotética historia evolutiva de las especies asociadas a sus hojas partiendo de un ancestro en común (la raíz): las aristas representan la descendencia directa por mutaciones, y la flecha del tiempo va en el sentido de la raíz a las hojas. La siguiente figura (copiada de aquí) muestra dos árboles filogenéticos alternativos para un mismo conjunto de especies: en estos árboles concretos, la raíz es el ápice inferior y por lo tanto el tiempo discurre de abajo a arriba.

phylogenetic_tree

Como la forma de un árbol filogenético concreto es un reflejo de las características del proceso evolutivo subyacente, hay un cierto interés en filogenética por cuantificar las propiedades de esta forma mediante índices. Unos de los más usados son los llamados índices de equilibrio (balance indices, en inglés), que miden la tendencia en un árbol a que sus nodos estén equilibrados en el sentido de que los “hijos” de cada nodo tengan el mismo número de hojas descendientes. En este sentido, los árboles que se consideran más “desequilibrados” son las orugas (con la forma del árbol de la derecha de la figura inferior; si en el Árbol I de la figura superior quitáis el cerdo, obtenéis un árbol oruga de 6 hojas).

Uno de los índices más usados en este contexto es el llamado índice de Sackin S, en honor a M. J. Sackin. Si definimos la profundidad de una hoja como el número de nodos interiores en el camino de la raíz a la hoja, contando la raíz, entonces el índice de Sackin de un árbol filogenético es la suma de las profundidades de todas sus hojas. Es un buen índice, fácil de entender y de calcular, con una buena correlación entre su magnitud y el equilibrio del árbol. De hecho, su desequilibrio: a mayor índice de Sackin, más desequilibrado es el árbol. Además, es igual a la suma de las hojas descendientes de cada nodo interior, y siempre es bonito tener dos expresiones sencillas de un mismo índice.

Por ejemplo, para los árboles de la figura anterior (y sumando profundidades de izquierda a derecha)

S(Tree I)=1+2+4+4+4+5+5=25,     S(Tree II)=1+3+3+4+4+4+4=23

lo que indica que el árbol II está ligeramente más equilibrado que el I (gracias al cuarteto final, que en el árbol II define un subárbol simétrico).

La referencia obligada cuando se usa el índice de Sackin es

M. J. Sackin, “Good” and “bad” phenograms. Sys. Zool, 21 (1972), 225-226.

Pero claro, el índice de Sackin ya ha pasado a los libros de texto de filogenética, así que uno no va a buscar su formulación precisa en el artículo original, se fía de la referencia. Sobre todo si, como es mi caso, no se tiene acceso directo ni físico ni electrónico al texto completo del artículo de Sackin. Así, por ejemplo, J. Felsenstein en su “Inferring Phylogenies” (p. 563) dice que “Sackin (1972) sugirió usar o bien la varianza \sigma_N^2 de N_i para la hojas del árbol o bien su media \overline{N}, donde N_i es el número de nodos en el árbol por debajo de la hoja i.”

Hace unas semana al fin encargué por intercambio bibliotecario una copia del artículo de Sackin y resulta que no, que Sackin no sugiere nada ni define ningún índice. En su artículo de dos páginas asocia a cada árbol el vector de las profundidades de sus hoja, demuestra que este vector caracteriza la forma de un árbol binario (donde cada nodo interior tiene exactamente dos hijos: los de las dos figuras lo son), y observa que, en los árboles de la siguiente figura (extraída de su artículo), el árbol simétrico de la izquierda tiene las profundidades de sus hojas más pequeñas y menos variadas que la oruga de la derecha. Y punto. Ningún índice explícito basado en estas profundidades, ninguna sugerencia de cuantificar el tamaño y la variación de estas profundidades.

arbolsackin

¿Quién define pues el índice de Sackin? Hasta donde ha llegado mi búsqueda bibliográfica, la primera aparición del índice de Sackin es en el artículo sobre Tree Balance de K. T. Shao y R. R. Sokal en 1990 donde dicen (p. 266) “Sackin (1972) usó un vector b (de branching) para caracterizar un fenograma [un árbol filogenético binario] y medir su `utilidad'” y más adelante (p. 268) definen el “índice de Sackin” como lo hemos definido al principio. Por tanto, supongo que a partir de ahora para ser honrados citaremos (Sackin 1972, Shao-Sokal 1990).

Moraleja: no os fiéis de los libros de texto y las referencias celebres.

Ningún artículo citado en esta entrada ha sufrido el maltrato de no haber sido leído previamente.

Advertisements