Escoja un número del 1 al 100. ¿Tiene uno? Felicitaciones. Las probabilidades indican que eligiendo un número al azar, usted tiene mayores posibilidades de acertar que Google cuando intentó predecir el porcentaje de incremento de enfermedades parecidas a la influenza que afectarían a los estadounidenses en las semanas siguientes.
Así es. Usted, armado sólo con su cerebro, puede ganarle la partida a una corporación multimillonaria, que emplea a algunas de las personas más inteligentes del planeta.
El ejemplo puede parecer trivial, pero muchos creen que es importante debido a que el indicador “Tendencias de Influenza” de Google (Google Flu Trend, GFT) una vez fue considerado el ejemplo más resplandeciente del poder de los grandes conjuntos de datos, o el así llamado “big data”.
Los datos que utiliza para predecir con una semana de anticipación cuántas personas estarán estornudando y moqueando los obtiene de términos de búsqueda, entradas de blog y mensajes compartidos en redes sociales, lo que se conoce como “datos no estructurados”.
Se trata de algo muy diferente al flujo lento y estructurado de información que puede recogerse usando los formularios que los pacientes llenan en las salas de espera de consultorios y hospitales, y que era lo que se utilizaba para hacer predicciones antes del advenimiento del big data. El problema está que el GFT resultó ser terriblemente inexacto.
En un período de 108 semanas, el GFT se equivocó en su estimación 100 veces, según reveló un estudio reciente.
Algunas veces calculó el doble del número de casos efectivamente registrado por doctores en Estados Unidos. De ahí que cualquiera pueda hacer una mejor predicción si se saca una cifra de debajo de la manga.
Con todo, la data no estructurada que los seres humanos están poniendo en internet es precisamente la clase de material que las compañías quieren analizar cuando empiezan sus propios proyectos de big data.
Muchas corporaciones están muy interesadas en utilizar esas confusos marañas de sentimientos humanos para monitorizar cómo le está yendo a sus marcas, y para modificar ligeramente sus operaciones cuando descubren oportunidades comerciales o potenciales desastres de relaciones públicas.
Antes, esos conjuntos gigantes de datos eran difíciles de desentrañar. El GFT parecía sugerir que, con las herramientas apropiadas, era posible abrir las puertas a toda clase de predicciones útiles. Aún más: podría llegarse a esas predicciones de forma rápida y barata.
¿Qué pasó?
¿Por qué fue que el GFT salió tan mal y qué implicaciones tiene eso para otros proyectos de big data? “No existe tal cosa como datos limpios y estables”, le dice a la BBC el estadístico Kaiser Fung, quien ha escrito extensamente sobre los escollos que plagan estos proyectos.
Cuando habla de “limpios y estables” se refiere a que es un error pensar que los datos que Google recogió para su GFT hoy son los mismos que recopiló la semana, el mes o el año pasado.
Google altera regularmente los algoritmos que usa para elaborar índices de vida y, como resultado, puede estar tomando muestras de cosas muy diferentes entre un mes y otro, lo que añade un grado de inestabilidad -machas de mugre, si se quiere- a ese grupo de datos.
Lo mismo puede decirse de cualquier conjunto grande de datos recopilado por cualquier persona, dice el especialista.
Todo se verá contaminado de alguna manera, ya que pasará algo por alto, simplemente debido a las singularidades del código subyacente que se utiliza para analizar e indexar páginas web, mensajes en redes sociales y entradas de blog.
Esto será particularmente cierto si las compañías compran sus datos de fuentes diferentes y los tratan como un solo cuerpo.
“Nunca me he encontrado con un set completo de datos”, dice. “Con frecuencia la única razón por la que la gente cree que su datos son limpios es porque nunca los han mirado”.
Las empresas que poseen grandes cuerpos de datos pueden asumir que toda la información que necesitan está allí. Sin embargo, la premisa según la cual “N=todo” es errada, señala.
“Es mucho mejor asumir que hay huecos e imperfecciones en los datos que asumir que están completos”, añade.
Cualquier compañía que comienza un proyecto de big data haría bien en mirar los datos que ha recopilado y limpiarlos antes de empezar el análisis.
El consumidor contrataca
Hay otras buenas razones para someter a escrutinio la información masiva sobre clientes, dice Patrick James, socio del departamento de prácticas de consumo de la consultora Ernst and Young.
“Está por producirse un contragolpe de los consumidores”, anticipa. “Uno que va en contra de buena parte del big data”.
Y es que cada vez más personas están menos dispuestas a simplemente entregar información sin recibir nada a cambio.
Cada vez más consumidores y clientes intentarán retener sus datos, limitar lo que comparten online o simplemente darán respuestas equivocadas cuando se suscriben a algún servicio o se les pregunta sobre su vida y sus hábitos, cree James.
Las decenas de miles de personas que llenaron un formulario para que Google expurgara sus datos de sus índices es prueba de un creciente deseo de desaparecer, afirma, en conversación con la BBC.
Si esta tendencia aumenta, podría resultar en un sesgo de los sets de datos, lo que los haría menos útiles para esos grandes proyectos. Estos días iniciales del big data pueden terminar siendo su edad de oro. “Los datos nunca han sido tan baratos como hoy. Sólo pueden volverse más costosos”, dice James.
El ojo en el blanco
Así que si los datos no son la clave de un buen proyecto, ¿qué es? “Demasiados proyectos de big data comienzan en los departamentos de Informática de las compañías que quieren jugar con nuevas tecnologías, como Hadoop”, le dice Laurie Miles, jefe analítico de la empresa especializada en big data SAS, a la BBC.
“Esto ha llevado al escepticismo, porque en la historia de los proyectos de Informática, muchos han terminado en fracaso”. En vez de poner la tecnología primero, cualquiera que quiera embarcarse en un proyecto de big data necesita saber por qué está haciéndolo, antes de aprobarlo, argumenta.
“Un proyecto de big data no va a producir ningún beneficio a menos que esté enfocado en un problema específico”.
Ese foco puede evitar que un proyecto se escape de las manos y asegurar que produzca un resultado que tenga un impacto en algún asunto específico del negocio, indica.
Detectar el uso fraudulento de tarjetas de crédito requiere de una metodología muy diferente a analizar el desempeño de atletas , por ejemplo. Y SAS está ayudando a los dos.
“Analizamos los datos de tarjetas de crédito en el punto de venta, algo que se necesita rápido”, dice Miles. “Con el equipo de remo británico tenemos un par de semanas para producir respuestas”.
Conocer la respuesta puede ayudar a definir la tecnología que se necesita para apuntalar un proyecto de big data.
“Con frecuencia no necesitas poner en marcha una estructura masiva de IT para hacer el trabajo”, dice. “Lo cual viene muy bien, ya que los resultados en tiempo real son realmente costosos”.