Tipos de datos en Big Data
Con toda esta información, hay que tener en cuenta que existen diversos tipos de datos. Estos los podemos dividir en:
1# Datos estructurados
Este grupo recoge todos aquellos datos que se pueden almacenar, acceder y procesar en forma de formato fijo. Este tipo de datos representan aproximadamente el 20% de los datos disponible e incluyen números, fechas y grupos de palabras. Son los que estamos más acostumbrados a tratar y, por lo general, se almacenan en bases de datos.
2# Datos no estructurados
Por otro lado, los datos no estructurados no siguen un formato específico. Siguen su forma original, tal y como fueron recogidos. Para hacernos una idea, si el 20% de datos disponibles por las empresas son estructurados, el 80% no lo son. No tienen un formato concreto que nos permita almacenarlos de forma tradicional, porque la información no puede desglosarse. Por ejemplo, en este grupo estarían los emails, los PowerPoint o los archivos PDF, por ejemplo.
3# Datos semiestructurados
Los datos semiestructurados se sitúan en el medio. Es decir, no se ajustan a la estructura formal de los modelos de datos asociados con bases de datos relacionales u otras formas de tablas de datos, pero contienen etiquetas u otros marcadores para separar elementos y hacer cumplir las jerarquías de registros y campos. Por ejemplo, JSON y HTML son formas de datos semiestructurados.
Características de los datos
El Big Data empezó como el proceso de las 3 Vs: volumen, velocidad y variedad. Sin embargo, al ir evolucionando aparecieron otras Vs: veracidad, valor y variabilidad. Puede ser que, cuando estés leyendo este post, incluso hayan aumentado. Es más, cometeremos el atrevimiento de agregar una: la visión.
Veamos en qué consiste cada una:
- Volumen: la cantidad de datos que maneja.
- Velocidad: tener la infraestructura y los procesos necesarios para tratar los datos de forma ágil y en el menor tiempo posible para aplicar estrategias de cambios.
- Variedad: tener distintas fuentes de recopilación de datos sobre diferentes aspectos relacionados con el negocio y los consumidores. No solo data estructurada, sino de diferentes tipos: comportamiento, conversaciones, afinidades, fotos, vídeos, etc.
- Veracidad: cómo de acertada es la data que tenemos. A mayor volumen, mayor es el trabajo para organizar esos datos.
- Valor: saber cómo tratar la data que se recopila para sacarle un valor a la misma que ayude a tomar decisiones acertadas.
- Variabilidad: las diferentes interpretaciones que pueden resultar en el proceso.
- Visión: el poder tener una visión clara de cómo proceder en base a los diferentes patrones e interpretaciones de comportamiento del consumidor.