Bit - loader

Tipos de datos en Big Data: clasificación por categoría y por origen


Netmind - Tipos de datos en Big Data: clasificación por categoría y por origen    Artículo | Big Data Fundations
Ángel M. Rayo | 17/05/16

A la hora de crear proyectos Big Data que detecten, consuman, gestionen, organicen y presenten dichos datos de una manera optimizada y de forma que aporten algo a nuestro negocio generalmente nos enfrentamos a las siguientes preguntas:

  • ¿De dónde obtengo los datos?
  • ¿Qué datos aportan más información a mi negocio?
  • ¿Qué datos hay disponibles fuera de mi organización que me pueden ayudar?
  • ¿Qué volumen de datos tenemos que manejar?
  • ¿Qué formato tienen?
  • ¿Con qué frecuencia los utilizo?
  • ¿Cómo integrarlos en nuestro sistema de gestión?

Aunque todas estas preguntas son importantes, la más importante de todas es:

  • ¿Qué problema quiero resolver?

Si no tenemos claro el problema, no podemos plantearnos empezar a trabajar con datos para encontrar una solución.

Cuando hayamos localizado el problema que queremos resolver podremos plantearnos las preguntas iniciales y extraer información. El proceso de obtención de la misma a partir de los datos está reflejado en la famosa pirámide DIKW o pirámide del conocimiento, que relaciona cuatro componentes: Data, Information, Knowledge y Wisdow (Datos, Información, Conocimiento y Sabiduría).

Big-Data-1

Ilustración 1: Pirámide DIKW

Tipos de datos de Big Data

La categorización de los datos es importante para cualquier proyecto, y en especial cuando vamos a trabajar con grandes volúmenes (Big Data).

Dos de las categorizaciones más utilizadas en Big Data suelen ser las que relacionan la estructura de los datos y las que dependen del origen de los mismos:

Tipos de datos por categorías

Los tipos de datos se suelen organizar en 2 categorías principales:

  • Estructurados:
    • Creados: datos generados por nuestros sistemas de una manera predefinida (registros en tablas, ficheros XML asociados a un esquema)
    • Provocados: datos creados de manera indirecta a partir de una acción previa (valoraciones de restaurantes, películas, empresas (Yelp, TripAdvisor, …)
    • Dirigido por transacciones: datos que resultan al finalizar una acción previa de manera correcta (facturas autogeneradas al realizar una compra, recibo de un cajero automático al realizar una retirada de efectivo, …)
    • Compilados: resúmenes de datos de empresa, servicios públicos de interés grupal. Entre ellos nos encontramos con el censo electoral, vehículos matriculados, viviendas públicas, …)
    • Experimentales: datos generados como parte de pruebas o simulaciones que permitirán validar si existe una oportunidad de negocio.
  • No estructurados:
    • Capturados: datos creados a partir del comportamiento de un usuario (información biométrica de pulseras de movimiento, aplicaciones de seguimiento de actividades (carrera, ciclismo, natación, …), posición GPS)
    • Generados por usuarios: datos que especifica un usuario (publicaciones en redes sociales, vídeos reproducidos en Youtube, búsquedas en Google, …)
  • Multi-estructurados o híbridos:
    • Datos de mercados emergentes
    • E-commerce
    • Datos meteorológicos

Big-Data-2

Ilustración 2: Categorías 

Tipos de datos por origen

Aunque no existe un criterio único para categorizar los tipos de datos lo más extendido es dividirlos en 5 grupos:

  • Web y Redes Sociales
    • Información sobre clicks en vínculos y elementos
    • Búsquedas en Google
    • RRSS (fuentes de datos de Twitter, publicaciones en Facebook, otras RRSS)
    • Contenido Web (páginas, imágenes, enlaces, etc.)
  • Comunicación entre máquinas
    • Lecturas RFID
    • Señales GPS
    • Otros sensores (parquímetros, máquinas expendedoras, cajeros, etc.)
  • Transacciones
    • Registros de comunicaciones (llamadas, mensajería, VoIP, etc.)
    • Registros de facturación (pagos con tarjeta, pago online, etc.)
  • Biométricos
    • Reconocimiento facial
    • Información genética (ADN)
  • Generados por personas
    • Grabaciones a operadores de atención al cliente
    • E-mail
    • Registros médicos electrónicos

Big-Data-3

Ilustración 3: Orígenes

Conclusión

Una vez hayamos conseguido identificar nuestras fuentes de datos y hayamos sido capaces de categorizarlos convenientemente podremos pasar a la siguiente fase que consistirá en definir qué mecanismos vamos a utilizar para poder convertirlos en Información útil siguiendo la pirámide DIKW.

Como dijo Clifford Paul Stoll, astrónomo y escritor: “Data is not information, information is not knowledge, knowledge is not understanding, understanding is not wisdom”.

 


Ángel M. Rayo

Ángel es Ingeniero en Informática por la Universidad Politécnica de Madrid. Desde hace 15 años su principal objetivo es ayudar a los equipos de IT a crear excelentes soluciones tecnológicas. Actualmente lidera el área de formación técnica en Netmind, ejerciendo como formador y mentor, colaborando con todo tipo de organizaciones y equipos que desean adoptar la mejores prácticas y tecnologías para crear sus soluciones. Es formador oficial de Microsoft, ISTQB, DASA, y ha liderado proyectos de formación y consultoría para empresas como BBVA, Axa, PwC, Roche, Microsoft, Accenture, Capgemini e Indra. Escribe habitualmente en el Knowledge Center de BIT y en el de Netmind, y colabora con distintas asociaciones y grupos de usuarios en la divulgación de las mejores prácticas de desarrollo de software. Ángel cuenta con las certificaciones en Gestión de Servicios ITIL® Expert e ISO/IEC 20000 Consultant Manager. Fue reconocido por Microsoft como Cloud Ambassador en 2012 y fue MCT Regional Lead entre 2012 y 2015. Su labor ha sido conseguir los mejores resultados en los programas formativos que imparte y garantizar que puedan avanzar en su carrera profesional.


Entradas relacionadas

Cursos relacionados