El concepto de Big Data (grandes datos en inglés) está en boca de todos en el mundo informático y es una de las preocupaciones de los directivos de las grandes empresas. Y si no lo es, debería serlo.
Pero el primer paso para encarar el problema es entender qué es.
A continuación, respondemos a siete preguntas básicas que a algunos les da vergüenza preguntar.
1. ¿Qué es exactamente el Big Data?
Buena pregunta. Al fin y al cabo, desde hace mucho tiempo hay grandes cantidades de datos de todo tipo de fuentes: recibos de compras, datos de tarjetas, informes médicos, declaraciones de impuestos y un largo etcétera.
Se trata de la gestión y análisis de enormes volúmenes de datos que superan los límites y capacidades de las herramientas habitualmente utilizadas.
Laurie Miles, jefa de análisis de la empresa especializada en el tema SAS, explica: "El concepto de grandes datos existe desde hace décadas, y hemos estado haciendo análisis durante todo este tiempo. Pero ahora no es grande ('big'), es enorme".
En efecto, lo que hizo que se acuñara este término es la velocidad, la variedad y el volumen que ahora tienen los datos.
2. ¿Por qué es tan grande?
La mayoría de los datos tradicionalmente se estructuraron en bases de datos. Fue entonces cuando el mundo se volvió digital y llegó Internet.
La mayor parte de lo que hacemos se puede traducir en cadenas de unos y ceros que puedan ser registrados, almacenados, registrados y analizados.
Luego hubo una proliferación de los llamados "datos no estructurados", generados por todas nuestras interacciones digitales, desde el correo electrónico a las compras en línea, los mensajes de texto, los tuits, las actualizaciones de Facebook y los videos de YouTube, entre otras.
Y el número de aparatos de grabación y transmisión de datos, desde smartphones hasta neveras inteligentes, sensores industriales a cámaras de circuito cerrado de televisión, ha aumentado en todo el mundo, dando lugar a una explosión en el volumen de datos.
Estos conjuntos de datos son ahora tan grandes y complejos que necesitamos nuevas herramientas y enfoques para sacar el máximo provecho de ellos.
3. ¿Cuántos datos hay?
Nadie lo sabe a ciencia cierta, ya que el número crece muy rápido. Algunos dicen que alrededor del 90% de todos los datos que existen hoy en el mundo fueron creados en los últimos años.
De acuerdo con el gigante informático IBM, cada día del 2012 se generaron 2,5 exabytes -es decir, 2,5 billones de gigabytes (GB)- de datos. Eso es mucho para cualquier estándar. "Cerca del 75% de los datos no son estructurados y proceden de fuentes tales como texto, voz y video", señala Miles.
Y como se prevé que la penetración de los móviles crecerá de aproximadamente el 61% de la población mundial en 2013 a casi el 70% en el 2017, esas cifras sólo pueden crecer. El proyecto de datos abiertos del gobierno de Estados Unidos ya ofrece más de 120.000 conjuntos de datos disponibles al público.
4. ¿Dónde se almacenan?
Las primeras computadoras venían con memorias que se medían en kilobytes, pero los últimos smartphones ahora pueden almacenar 32 GB y muchos portátiles tienen ahora un terabyte (1.000 GB) de disco duro. El almacenamiento en realidad ya no es un problema.
Para las grandes empresas, en efecto, "el costo de almacenamiento de datos se ha desplomado", dice Andrew Carr, de la consultora Bull. Las empresas pueden ya sea guardar todos sus datos en sus instalaciones, en sus propios centros de datos remotos o enviarlos a proveedores de almacenamientos de datos "en la nube".
Varias plataformas de código abierto han crecido específicamente para manejar estas grandes cantidades de datos de manera rápida y eficiente, entre ellas Hadoop, MongoDB, Cassandra y NoSQL.
5. ¿Por qué es importante?
Los datos sirven en la medida en que nos transmiten inteligencia, y esto implica un análisis eficaz de los datos y una gran cantidad de energía para hacerle frente al aumento exponencial del volumen.
Un informe reciente de la consultora Bain & Co señala que, de 400 grandes empresas, las que habían adoptado análisis de grandes datos "ganaron ventaja significativa sobre el resto del mundo empresarial".
"Los grandes datos no se refieren solamente la inteligencia histórica para los negocios", dice Carr , "es la incorporación de datos en tiempo real y la capacidad de agrupar varios conjuntos de datos lo que los hace tan valiosos".
Y aunque a muchos les resulte lejano, el tema nos afecta a todos. Prácticamente, cualquier persona que haga, cultive o venda cualquier objeto puede utilizar el análisis de grandes datos para hacer que sus procesos de fabricación y producción sean más eficientes y su comercialización más específica y rentable.
Esto está dando resultados muy interesantes en los campos de la salud, la investigación científica, la agricultura, la logística, el diseño urbano, la energía, el comercio minorista, la reducción de la delincuencia y las operaciones de negocios.
"Es un gran problema para las empresas, para la sociedad y para cada individuo", dice Ralf Dreischmeier, jefe de tecnología de la información del Boston Consultancy Group.
6. ¿Podemos manejar todos estos datos?
Los grandes datos necesitan nuevas habilidades y los mundos empresarial y académico están intentando ponerse al día. "El trabajo del científico de datos no existía hace cinco o diez años", dice Duncan Ross, director de ciencia de datos de Teradata. "Pero ¿dónde están? Hay escasez".
Muchas empresas recién están empezando a darse cuenta de que los datos son un activo valioso que necesitan proteger y explotar. "Los bancos sólo usan un tercio de sus datos disponibles, ya que a menudo se encuentra en bases de datos que son de difícil acceso", dice Dreischmeier.
"Tenemos que encontrar formas de hacer que esta información sea más accesible", agrega.
Las empresas, los gobiernos y los organismos públicos también deben mantener los datos sensibles a salvo de hackers, espías y desastres naturales, peligros cada vez más palpables en este mundo conectado a la red.
7. ¿Quién es el dueño de todo esto?
Esa es la pregunta del millón. Mucho depende del proveedor del servicio de almacenamiento de datos, la jurisdicción en la que se almacena y de cómo se generaron. Es un campo legal minado.
Por ejemplo, la metadata de las llamadas telefónicas – es decir, la ubicación, la hora y duración de las llamadas más allá de su contenido en sí mismo- ¿le pertenece a la persona que llama, a la red de telefonía o cualquier agencia de espionaje del gobierno que pueda estar escuchándola?
Cuando nuestros coches entren a la red, ¿serán los conductores, los propietarios o los fabricantes los dueños de los datos que generan?
En las redes sociales a menudo se dice que sus usuarios son dueños de su propio contenido, pero luego quieren decidir cómo se utiliza ese contenido, reservándose el derecho de compartirlo con terceros. Así que cuando usted tuitea, por ejemplo, renuncia a todo control sobre cómo se utilizará ese tuit en el futuro, a pesar de que los términos y condiciones de Twitter dicen: "Lo que es tuyo, es tuyo ".
Es que la privacidad y las leyes de propiedad intelectual no han seguido el ritmo de los cambios tecnológicos.