JAVIER SALAS Agencia Materia
El big data prometa soluciones, respuestas. La formidable capacidad de procesar ingentes cantidades de datos permite descubrir informacin desconocida, perspectivas sorprendentes, conclusiones slidas. En 2009 se produjo un gran acontecimiento en este sentido: la revista Nature public un estudio que mostraba cmo las consultas en el motor de bsqueda de Google se haban traducido en una prediccin casi exacta de la incidencia de la gripe en cada regin de EEUU. El big data reluca en las portadas, una herramienta que ayudara a conservar la salud de la gente mejor que los epidemilogos. Sin embargo, sus ltimas previsiones han duplicado el dato real ofrecido por las autoridades sanitarias. En un lustro, Google pas de clavar el pronstico a fallar como escopeta de feria.
Qu ha ocurrido en estos aos que ha llevado al fracaso de Google Flu Trends (tendencias de la gripe)? Hay quien directamente lo atribuye a la arrogancia del big data y la ausencia de espritu cientfico de Google, pero no conviene perder de vista todos los matices si queremos sacar conclusiones tiles. Cules son las flaquezas del big data que muestra este caso y hasta qu punto son representativas de lo que ocurre con otros orculos basados en grandes cantidades de informacin social, como ocurre con la capacidad predictiva de Twitter?
Los expertos sealan varios puntos clave, como la opacidad de las empresas que cuentan con mayores bases de datos, los cambios del algoritmo, cierta desconexin al confiar ciegamente en la cantidad de datos olvidando el mtodo cientfico, las dificultades para predecir comportamientos sociales, la facilidad para manipular desde el exterior la cosecha de informacin y que hoy somos ms exigentes con unos resultados que hace aos parecan formidables.
[embed:851518]
EL CASO FLU TRENDS Repasemos lo ocurrido con Flu Trends para visualizar su taln de Aquiles. La gigantesca multinacional que (casi) todo lo sabe, poda cabalgar sobre millones de bsquedas relacionadas con la gripe sntomas gripe, virus gripe, etctera para decirnos casi al instante si habra colas en las urgencias en determinado punto del pas. Mientras, los sistemas predictivos de los Centros para el Control y la Prevencin de Enfermedades de EEUU (CDC), necesitaban entre una o dos semanas para recoger la informacin necesaria.
El artculo en Nature que consagr a Flu Trends lo firmaron conjuntamente Google y los CDC. The New York Times hablaba de un matrimonio fructfero entre la medicina y el comportamiento de las masas. Desde un punto de vista tecnolgico, es solo el comienzo, dijo el presidente de Google, Eric Schmidt. Desde entonces, el sistema ha sobreestimado constantemente las visitas a centros mdicos relacionadas con la gripe, siendo especialmente inexacto en los picos de la temporada de gripe, cuando ms tiles son las previsiones. En la temporada 2012-2013, predijo el doble de visitas al mdico que las registradas por los CDC y en la 2011-2012 se sobreestim en ms de un 50%: no atina desde agosto de 2011.
LA ARROGANCIA DEL BIG DATA Las primeras veces que fall, Google lo quiso atribuir a una maniobra malintencionada: no es difcil alterar el resultado, tan solo hay que fingir que se busca informacin sobre esta enfermedad. Adems, se deca desde la empresa, el inters que despert Flu Trends en los medios provoc que la herramienta recibiera una importante atencin por parte del pblico, lo que termin por falsear el resultado.
Varios expertos en big data publicaron recientemente en Science un anlisis de los fallos de Google Flu Trends, que consideraban una parbola de lo que est ocurriendo en su campo. La arrogancia del big data, arrancan, es la suposicin implcita de que pueden sustituir, en lugar de complementar, a la recopilacin de datos y el anlisis tradicional. La cantidad de datos no significa que uno puede ignorar los problemas fundamentales de la medicin, aaden estos autores, liderados por David Lazer, de la Universidad de Harvard (EEUU).
Google tiene ms datos que nadie y, en muchas ocasiones, el debate sobre el valor del big data se centra nicamente en la cantidad. Es verdad que se da un poco de arrogancia del tipo mi base de datos es ms grande que la tuya. Muchas veces se queda en segundo plano la importancia del proceso de transformacin del dato en valor, reconoce Esteban Moro, investigador de la Universidad Carlos III de Madrid.
TERABYTES DE DATOS Esto es algo que sabe cualquier persona que se dedique a aplicar el mtodo cientfico, el dato en s no tiene ningn valor, insiste Moro. Antes, los datos caban en una hoja. Pero ahora, por tener terabytes de datos, no tienes mejor informacin. Cul ha sido el problema de Google con la transformacin de los datos? Lazer apuesta en Science por los distintos (cientos, miles) de cambios que el propio Google introduce en el algoritmo de su buscador.
La forma en que se presentan los resultados tambin cambia la forma de buscarlos, resume Moro, en referencia a novedades como el autocompletado del buscador, que dificulta conocer con exactitud lo que iba a buscar el usuario. Quiz el internauta iba a teclear gripe en ancianos, preocupado por su abuelo, pero al terminar de escribir la primera palabra el buscador le sugiri otras opciones que alteraron su intencin.
Lo lgico es que lo hubieran refinado, reflexiona Daniel Gayo, investigador de la Universidad de Oviedo. En este campo, los cambios ms triviales pueden afectar tremendamente: la forma de ordenar los resultados, la interfaz, el algoritmo Es posible que no haya colaboracin entre equipos, que dentro de la propia empresa no haya comunicacin entre los departamentos responsables de los algoritmos del buscador y de la confeccin de Flu Trends, dice Gayo.
EL SER HUMANO ES IMPREVISIBLE Adems, Gayo recuerda que el big data es un subproducto, hay que vigilar cmo se origina, en alusin a esas bsquedas: los internautas no siempre se van a comportar como deberan, cumpliendo como simples sensores, sino por antojos, modas y disfrutando de su albedro. Moro coincide en que los comportamientos sociales son mucho ms difciles de calibrar: en su da a da, se sirve de los datos para la prediccin del fraude y se trata de un comportamiento que cambia permanentemente, de un da para otro. Lo que serva en 2009 para vaticinar estornudos, en 2013 puede estar desfasadsimo.
Un gran obstculo que identifica Moro es el de saltar de la correlacin a la prediccin: Aunque encontremos correlaciones significativas, pueden no ser suficientemente buenas para aventurarse a realizar una prediccin. Y en el momento en que las encontremos, apunta Gayo, los interesados harn lo posible para manipularlo: Es lo que ocurre en poltica y las predicciones electorales en Twitter, todos van a querer cambiar el resultado a su favor.
Otro de los problemas cientficos que plantea la experiencia de Flu Trends es el de la replicabilidad de los resultados y la falta de transparencia. Quin va a comprobar sus nmeros y predicciones si ni siquiera sabemos cules son las bsquedas que se tienen en cuenta para hacerlas? Google es una empresa y sus datos ataen a la privacidad de millones de personas. En Science critican que los materiales que aportan desde Flu Trends no cumplen con los estndares cientficos emergentes y que hay otros que s se podran liberar para ayudar a la ciencia.
FALTA DE TRANSPARENCIA Te tienes que creer que funciona, dar por buenos los datos que proporcionan las empresas. Sin una mnima transparencia, no se puede hacer ciencia a partir de su trabajo, que sera lo deseable, seala el investigador de la Universidad de Oviedo. Gayo considera que, en este caso, los autores de Science se han podido pasar de frenada elevando a categora este fallo. Es ms, al margen de EEUU, Flu Trends s funciona para numerosos pases y los picos coinciden con la realidad, aunque no en tamao.
Es decir, tampoco conviene ser reduccionistas y que la experiencia de Flu Trends nos lleve a decir que el big data no merece la pena, como seala el experto Kaiser Fung en la revista Harvard Business Review. Lazer y los coautores de su texto creen que falta coordinacin entre el big data y la confeccin de datos de toda la vida. Gayo opina que, tal y como se plantea en Science, el caso no es generalizable como un inconveniente comn para la ciencia de los datos. Y Moro, que admite que mucha gente se dej llevar por el entusiasmo, sugiere que finalmente el factor humano es ms determinante de lo que pensbamos: Un electrn siempre va a tener la misma carga, pero las personas cambian.