@Hector_Luna: BIG DATA: El 90% de los datos existentes en el mundo han sido creados en los últimos 2 años

En la conferencia IOD 2011 (Information On Demand versión 2011) en la ciudad de Las Vegas, Estado Unidos, IBM presentó este año como problemática central la explosión de datos en nuestra sociedad, fenómeno que han denominado “Big data” y como las empresas están enfrentando la problemática de obtener información valiosa y relevante para el negocio.

Algunos datos para empezar a entender el fenómeno:

1,3 billones de etiquetas RFID en 2005 vs 30 billones en 2010.
2 billones de usuarios Internet en 2011. Para el 2013 se estima que el tráfico en internet llegará a 667 exabytes.
4,6 billones de teléfonos celulares alrededor del mundo.
Facebook procesa 10 terabytes de datos cada día.
Google procesa más de 24 petabytes de datos en un solo día.
Twitter procesa más de 7 terabytes de datos cada día.
En cada sesión el New York Stock Exchange (NYSE) genera 1 terabyte de información.

El “Big data”, es decir, “muchísimos datos” es un tema serio. Eaton, Deuthsch, Deroos y Lapis, en su libro “Understanding Big Data” explican que el termino aplica a toda información que no puede ser procesada o analizada usando métodos o herramientas tradicionales. Las empresas hoy en día, están enfrentando el desafío creciente de lidiar con más y más datos.

En una encuesta llevada a cabo por IBM, más de la mitad de las empresas líderes reconocieron que no tienen acceso a la información relevante para realizar su trabajo. Las empresas están enfrentando esta problemática, considerando que en la actualidad ellas son capaces de almacenar toda la información que ellas mismas generan, y se debe considerar que es la que más se ha generado en la historia del ser humano. Combinada ambas cosas, esto representa un verdadero desafío.

Tres características define el fenómeno “Big data”: Volumen, variedad y velocidad.

El primer concepto, el volumen, se refiere a que en la actualidad nos encontramos escalando desde terabytes a zettabytes; administrar la complejidad de múltiples fuentes de información estructurada y no estructurada; datos y eventos en tiempo real junto a volúmenes masivos de información almacenada. En la próxima década (2010-2020) la cantidad de información se multiplicará por 44. Es decir, de los 800.000 petabytes que se estiman se generaron en 2009 pasaremos a 35 zettabytes el 2020 (ya son unos 1,8 zettabytes en 2011). Y esto lo demuestran las cifras: El 90% de los datos existentes en el mundo han sido creados en los últimos 2 años; el 80% de los datos del mundo en la actualidad no es estructurada; solo el 20% de los datos está almacenado en sistemas tradicionales (bases de datos relacionales) que permiten analizar la información de forma estructurada.

Esta explosión de datos trae asociado un desafío adicional: La variedad. La cantidad de sensores, dispositivos inteligentes, así como las tecnologías asociadas a colaboración (mail, chat, voz) han transformado a los datos que manejan las empresas en un caso complejo de administrar, más allá de la información contenida en las bases de datos relacionales habituales. A lo anterior, se debe agregar la información disponible en páginas web, blogs, video streaming como YouTube, motores de búsqueda, foros de redes sociales (Facebook, Twitter), e-mail, documentos, sensores de datos provistos por sistemas activos y pasivos y suma y sigue.

El tercer concepto, la velocidad. Un entendimiento convencional de la velocidad típicamente considera qué tan rápido los datos llegan y se guardan y por lo tanto el concepto está asociado a tasas de almacenamiento. Mientras se almacene la información rápidamente, está todo bien. Sin embargo ahora, velocidad tiene más que ver con “datos en movimiento”: La velocidad a la cual los datos están fluyendo. Después de todo, las empresas actualmente están lidiando con petabytes de datos en vez de terabytes y agregando una variedad de fuentes de información que hace imposible de ser manejada por sistemas tradicionales. Adicionalmente, más y más información en la actualidad tiene un corto período de duración, así que las organizaciones deben estar en posibilidades de analizar esta información prácticamente en tiempo real para encontrar realmente utilidad en dicha información. La red social Foursquare nos entrega un buen ejemplo de este concepto. Es distinto consultar quien ha estado en un restaurant que consultar quien está “actualmente” en un restaurante. En términos de tecnología esto se denomina “Streams Computing” en la cual es posible ejecutar procesos que se parecen a una “consulta continua”.

Pero el problema de fondo es que estamos extrayendo poco “Insight” de esta información, es decir, información realmente valiosa. Y esto lo dicen las encuestas: 1 de 3 líderes de empresas toma decisiones en base a información de la cual no confía o conoce totalmente; el 56% se siente sobrepasado con la cantidad de información que la compañía maneja; el 60% indica que debe hacer un mejor trabajo para capturar y entender la información y de forma más rápida; el 83% cita “Business Intelligence and Analytics” como parte de sus planes para aumentar su competitividad.

Para entender la problemática que esto causa, vale la pena revisar los números disponibles en el área de la salud, en base a estadísticas disponibles en Estados Unidos: La información disponible en esta área se dobla cada 5 años, la mayoría de ella es no estructurada; el 81% de los médicos informan que utilizan 5 horas o menos al mes para leer nuevas publicaciones y trabajos de colegas; 1 de cada 5 diagnósticos son imprecisos o errados; se cometen al menos 1,5 millones de errores en la forma en que los medicamentos son prescritos, entregados y tomados en Estados Unidos cada año; entre 44 a 90 mil americanos mueren cada año por errores médicos, considerando solamente la información disponible en hospitales.

Para terminar, los autores de “Understanding Big Data” hacen una analogía con la extracción de oro. Los mineros buscan en la montaña vetas de oro, las cuales son imposibles de encontrar a simple vista. Es necesario efectuar prospecciones. Se extraen toneladas de material para obtener gramos de oro. Para esto, se efectúan importantes inversiones en capital y utilizan métodos no tradicionales. La analogía sirve para iniciar un camino para obtener el “Insight” que la organización necesita analizando el “Big data”.

Definiciones:

RFID: Abreviación de Radio Frequency IDentification

Terabytes: 1 millón de millones de bytes (10 elevado a 12)

Petabytes: 1024 terabytes (ó 1 millón de gigabytes)

Exabytes: 1 millón de terabytes (10 elevado a 18)

Zettabytes: Mil millones de terabytes (10 elevado a 21)

Vía Andres Araya Falcone