Bit - loader

Data Lake Analytics, uno de los servicios clave de Cloud

   Artículo | Data Analytics Bit - Data Lake Analytics, uno de los servicios clave de Cloud
Ángel M. Rayo | 06/09/17

En el artículo relacionado publicado en mayo sobre los servicios de Intelligence y Analytics en Azure  mencioné a Data Lake Analytics como uno de los servicios clave dentro de la plataforma Cloud de Microsoft.

Como recordatorio, Data Lake Analytics consiste en un servicio capaz de ejecutar trabajos de análisis bajo petición orientados a la toma de decisiones utilizando cuatro lenguajes de programación diferentes que permiten ejecución en paralelo y transformación de petabytes (PB) de datos.

 

Detalles

Azure Data Lake Analytics permite ejecutar trabajos de análisis utilizando lenguajes como Java y C#, Python y R como lenguajes de Científicos de Datos y U-SQL como lenguaje de consultas.

 

Ilustración 1 – Visión general de Data Lake Analytics

 

Como podemos ver el tratamiento de datos se realiza en cinco fases similares a las ya comentadas en un articulo anterior.

 

Capacidades

Azure Data Lake Analytics ofrece las siguientes capacidades:

 

Ilustración 2 – Capacidades de Data Lake Analytics

Primeros pasos

Para poder utilizar Data Lake Analytics lo primero que tendremos que hacer será crear un Data Lake Store donde iremos guardando los datos de diferentes fuentes. Actualmente sólo se ofrece Data Lake Analytics en dos regiones de EE.UU. y en Norte de Europa, pero en los próximos meses se irá ampliando la disponibilidad al resto de regiones.

 

Una vez configurado el servicio podremos crear trabajos para atacar a los datos utilizando U-SQL como se muestra en la siguiente imagen:

 

Ilustración 3 – Ejemplo de trabajo con U-SQL

Microsoft también nos ofrece la posibilidad de trabajar con datos iniciales de ejemplo y con scripts U-SQL que nos permitan conocer todo el potencial del servicio:

 

Ilustración 4 – Scripts de ejemplo

Coste

Actualmente Azure Data Lake Analytics se ofrece como servicio de pago por uso con un coste aproximado de 1,7 € / hora orientado a Proof of Concept (PoC). Si ya tenemos montado nuestro entorno y queremos hacer uso del servicio con mayor asiduidad lo mejor es optar por las soluciones de pago fijo al mes con un número de horas de ejecución de trabajos definidas que oscilan entre las 100 y las 100.000.

 

Conclusión

Como hemos visto, Azure Data Lake Analytics permite ejecutar trabajos de análisis sobre datos de diferentes fuentes y generar resultados en formato de ficheros en diferentes formatos o tablas que posteriormente podremos consumir a través de informes Power BI.

 

Aunque tiene similitudes con Stream Analytics la diferencia principal es que Stream Analytics está orientado al tratamiento de datos en tiempo real y que vengan desde dispositivos IoT mientras que Data Lake Analytics ofrece integración con la totalidad de fuentes de datos Azure.

 

Como dijo Ronald Coase (1910-2013), economista y abogado británico y Premio Nobel de Economía en 1991 «If you torture the data long enough, it will confess» (Si torturas los datos lo suficiente, confesarán).


Entradas relacionadas

Cursos relacionados
Nuestro sitio utiliza cookies para análisis. Si no estás seguro de ello, echa un vistazo a nuestra política de privacidad.