"El consumo de margarina está vinculado al divorcio". Si usted viera este titular en un diario o sitio de Internet, ¿qué pensaría? Y ¿qué pasaría si leyera un poco más y encontrara un gráfico convincente que le mostrara que los índices de divorcio y de consumo de margarina coinciden a lo largo de unos 10 años? ¿Se inclinaría a pensar que podría haber un vínculo?
"Quizás entre más margarina haya en el hogar, más probabilidades haya de que la pareja se divorcie", discurre Tyler Vigen, "o puede haber un vínculo con algunas de las moléculas de la margarina o algo".
Vigen es quien hizo el gráfico de la margarina, que publicó en su sitio web Correlaciones Espurias. El nombre lo delata: él es un incitador estadístico.
"He visto muchos titulares, particularmente los sensacionalistas: 'científicos encuentran una conexión entre x y y'", dice a la BBC.
"En muchas de esas situaciones puede que haya una correlación pero realmente lo más importante es que seamos críticos respecto a si realmente hay un mecanismo causal".
El queso y la cama; el vapor y la belleza
Una de las reglas de oro de la estadística es que una correlación no implica causalidad. Sólo porque los movimientos de dos variables sigan caminos similares durante un tiempo no implica que uno haga que ocurra el otro.
Para resaltar este asunto, que es importante pero algo aburrido, Vigen, un estudiante de criminología de la Escuela de Leyes de la Universidad de Harvard en Estados Unidos, diseñó un programa de computadora que escarba conjuntos de datos en busca de correlaciones... y publica las más cómicas en Correlaciones Espurias.
"Lo divertido es que permite a la gente ser científica por unos minutos, pues formula su propia hipótesis", señala.
El sitio web contiene mucho material en bruto para que cualquiera pruebe su habilidad para encontrar mecanismos causales creativos.
¿Qué vincula el incremento per cápita del consumo de queso con el número de personas que murieron porque se enredaron con sus propias sábanas?
¿Por qué los asesinatos con vapor de agua, vapores y objetos calientes aumentan o disminuyen, dependiendo de la edad de la participante que triunfe en el concurso de belleza de Miss America?
Y, ¿cómo es que el número de películas en las que aparece Nicolas Cage cada año influye en el número de mujeres que editan la revista Harvard Law Review?
"Lo pensamos por un segundo y nos damos cuenta de que no hay ninguna base real para afirmarlo", apunta Vigen. "No hay nada que nos lo pueda confirmar, así que podemos rechazar nuestras propias hipótesis inmediatamente".
Interpretaciones erradas
Ejemplos en la realidad de la diferencia entre la correlación y la causalidad abundan. Una clásica es que en verano, las ventas de helados y los asesinatos aumentan. Ambas están correlacionadas, pero es fácil ver que ninguna causa la otra. ¿Quizás otra variable, como el clima caliente, es la causa de las dos?
Más seriamente, cuando la terapia de sustitución hormonal (TSH) se generalizó, los doctores empezaron a notar que las mujeres que la adoptaban parecían padecer menos de cardiopatía isquémica. Algunos doctores indicaron que había una relación causal: que la TSH reducía el riesgo de enfermedades cardiovasculares.
Pero resultó que había una tercera variable en juego. Las mujeres que estaban tomando TSH tendían a ser de grupos socio-económicos más altos, con dietas más sanas y el hábito de hacer ejercicio. Era eso lo que reducía el riesgo de problemas cardiovasculares. Al final, otros análisis mostraron que, de hecho, TSH aumentaba levemente el riesgo.
¿Y los piratas?
El sitio web de Vigen ha llamado mucho la atención en las redes sociales, donde reírse de las correlaciones es un meme floreciente. Una rápida búsqueda arroja que "Facebook causó la crisis de la deuda griega", o que "la escasez de piratas causó el calentamiento global".
Correlaciones Espurias va más allá, ilustrando las trampas en esta época tan rica en datos.
Una es que si uno le dedica suficiente poder procesador a un amplio conjunto de datos, puede desenterrar enormes cantidades de correlaciones.
Muchas son estadísticamente significativas, lo que quiere decir que es poco probable que hayan ocurrido por casualidad. Sin embargo, eso no quiere decir que haya una relación causa-efecto: las relaciones causales, en las que una de las variables causa un cambio en la otra, son más difíciles de encontrar.
Otra trampa es el poder seductivo de los gráficos.
Los números en los conjuntos de datos pueden ser difíciles de comprender, pero si se presentan en dos líneas que se mueven hacia arriba o abajo aparentemente al unísono, ya no será difícil convencer a quienes lo ven que una variable influye sobre la otra.
"Muchas de mis gráficas ilustran situaciones en las que no hay correlaciones estadísticamente significativas, pero parece que las hay debido a la manera en la que las puse en la tabla", señala.
Las apariciones en filmes de Nicolas Cage son una variable que Vigen usa a menudo en su sitio. Las veces que Cage aparece en una película cada año varían sólo entre 0 y 4, pero si se escoge la escala con cuidado, se puede hacer que rastreen otras variables que suben y bajan en millones.
"Cuando uno sólo tiene unos 10 puntos (de data) con los cuales trabajar, no es muy difícil encontrar líneas superpuestas que varíen al tiempo", explica Vigen.
Así que, ¿cuáles son los consejos de Tyler Vigen para evitar que nos engañen con las estadísticas?