Tipos de datos en Big Data


Tipos de datos en Big Data

Con toda esta información, hay que tener en cuenta que existen diversos tipos de datos. Estos los podemos dividir en:

1# Datos estructurados

Este grupo recoge todos aquellos datos que se pueden almacenar, acceder y procesar en forma de formato fijo. Este tipo de datos representan aproximadamente el 20% de los datos disponible e incluyen números, fechas y grupos de palabras. Son los que estamos más acostumbrados a tratar y, por lo general, se almacenan en bases de datos.

2# Datos no estructurados

Por otro lado, los datos no estructurados no siguen un formato específico. Siguen su forma original, tal y como fueron recogidos. Para hacernos una idea, si el 20% de datos disponibles por las empresas son estructurados, el 80% no lo son. No tienen un formato concreto que nos permita almacenarlos de forma tradicional, porque la información no puede desglosarse. Por ejemplo, en este grupo estarían los emails, los PowerPoint o los archivos PDF, por ejemplo.

3# Datos semiestructurados

Los datos semiestructurados se sitúan en el medio. Es decir, no se ajustan a la estructura formal de los modelos de datos asociados con bases de datos relacionales u otras formas de tablas de datos, pero contienen etiquetas u otros marcadores para separar elementos y hacer cumplir las jerarquías de registros y campos. Por ejemplo, JSON y HTML son formas de datos semiestructurados.

Características de los datos

El Big Data empezó como el proceso de las 3 Vs: volumen, velocidad y variedad. Sin embargo, al ir evolucionando aparecieron otras Vs: veracidad, valor y variabilidad. Puede ser que, cuando estés leyendo este post, incluso hayan aumentado. Es más, cometeremos el atrevimiento de agregar una: la visión.

Veamos en qué consiste cada una:

  1. Volumen: la cantidad de datos que maneja.
  2. Velocidad: tener la infraestructura y los procesos necesarios para tratar los datos de forma ágil y en el menor tiempo posible para aplicar estrategias de cambios.
  3. Variedad: tener distintas fuentes de recopilación de datos sobre diferentes aspectos relacionados con el negocio y los consumidores. No solo data estructurada, sino de diferentes tipos: comportamiento, conversaciones, afinidades, fotos, vídeos, etc.
  4. Veracidad: cómo de acertada es la data que tenemos. A mayor volumen, mayor es el trabajo para organizar esos datos.
  5. Valor: saber cómo tratar la data que se recopila para sacarle un valor a la misma que ayude a tomar decisiones acertadas.
  6. Variabilidad: las diferentes interpretaciones que pueden resultar en el proceso.
  7. Visión: el poder tener una visión clara de cómo proceder en base a los diferentes patrones e interpretaciones de comportamiento del consumidor.