Data Lakehouse y Fabric revolucionan el análisis de datos
Data Lakehouse y Fabric es una combinación destinada a revolucionar el análisis de datos. Se trata de aunar un concepto que integra grandes cantidades de datos estructurados y en crudo con una plataforma diseñada por Microsoft, directamente accesible por vía web, para simplificar los requisitos de su correspondiente análisis.
El concepto de Data Lakehouse tiene ya una trayectoria de alrededor de siete años. Fue en 2017 cuando una empresa, Jellyvision, empezó a combinar datos estructurados y en crudo por medio de la tecnología Snowflake. Dado que, de hecho, estaba combinando un almacén de datos (o Data Warehouse, donde se almacenan los datos estructurados) con un lago de datos (Data Lake, donde se almacenan los datos en crudo), dicha combinación acabó siendo denominada Data Lakehouse.
Hasta la irrupción de este concepto, las empresas debían usar diferentes procesos para obtener la información de sus bases de datos y llevarlos al nivel de almacenamiento adecuado. Con Data Lakehouse, en cambio, es posible gestionar los datos dentro del mismo Data Lake. Colocándolo, así, en una posición central que, de otra manera, ocuparía el Data Warehouse o almacén de datos. Así, podemos distinguir un total de cinco capas:
- Capa de ingestión. En ella se reciben los datos que han sido extraídos de diferentes fuentes de manera previa a su envío a la siguiente capa.
- Capa de almacenamiento. Los datos recibidos, tanto si se trata de datos estructurados, de datos semiestructurados o de datos en crudo, se guardan de forma efectiva en esta capa.
- Capa de metadatos. Se trata de un catálogo unificado en el que se recogen metadatos de todos los objetos almacenados en el lago de tal manera que, entre otras funciones, se permite su indexación. Esta capa es la que define propiamente el Data Lake.
- Capa de API. En esta capa, las API de metadatos permiten a los usuarios discernir qué datos se requieren para un caso en concreto y cómo proceder a su correspondiente recuperación.
- Capa de consumo. En esta capa, finalmente, se ubican las herramientas y aplicaciones que aprovechan los datos almacenados en el Data Lakehouse para llevar a cabo análisis o implementar funciones de inteligencia empresarial o de IA.
En qué consiste la tecnología Microsoft Fabric y cómo se relaciona con Data Lakehouse
Tal y como señala la propia Microsoft, Fabric es una plataforma de datos y análisis integral pensada para organizaciones que requieren una solución unificada. De esta forma, abarca el movimiento, el procesamiento, la ingesta y la transformación de datos, así como el enrutamiento de eventos en tiempo real y la creación de informes. Para ello, además, ofrece servicios como Data Engineering, Data Factory, Ciencia de Datos, análisis en tiempo real, Data Warehouse y Bases de Datos. Y, además, es posible trabajar con soluciones como Power BI, Data Factory, Synapse Data Warehouse, Synapse Data Engineering o Synapse Data Science, entre otras. Su uso, mientras, estaría sobre todo indicado para organizaciones que manejan grandes cantidades de datos que, a su vez, están en cambio constante.
Fabric, por otro lado, permite prescindir del uso de múltiples proveedores y ofrece una plataforma integrada, fácil de utilizar, diseñada para simplificar los requisitos de análisis. Gracias también, en gran parte, en su concepción como SaaS (Software as a Service o Software como Servicio) y su accesibilidad directa vía web. Esta tecnología, además, se relaciona con Data Lakehouse sobre todo por medio de OneLake, que podemos definir a grandes rasgos como un OneDrive específico para datos. Sobre todo, se trata de un lago de datos único, unificado y lógico para toda la organización. Aunque se basa en Azure Data Lake Storage (ADLS) de segunda generación y simplifica la experiencia de uso de Fabric, no precisa de una cuenta existente de Azure para su uso.
OneLake es jerárquico por naturaleza, se incluye con Fabric y no necesita ningún requisito de aprovisionamiento por adelantado. Únicamente hay una instancia de OneLake por tenant y proporciona un único espacio de nombres de sistema de archivos que abarca usuarios, regiones y nubes. El tenant se asigna a la raíz de OneLake, y desde allí es posible crear múltiples áreas de trabajo. Áreas de trabajo que, en este caso, podemos considerar como carpetas en las que, a su vez, es posible generar también múltiples instancias de Data Lakehouse. El Data Lakehouse, además, puede entenderse como una colección de archivos, carpetas y tablas que representan una base de datos sobre un lago de datos.
Qué ventajas podemos obtener de la combinación de estas dos tecnologías
El uso de Data Lakehouse y Fabric ofrece toda una serie de ventajas. Tal y como ya hemos visto, un Data Lakehouse no deja de ser una combinación de un Data Warehouse y un Data Lake. Por tanto, aúna el bajo coste de almacenamiento y el fácil acceso a los datos del Data Lake con las estructuras de datos y las opciones de administación del Data Warehouse. De manera general, además, podemos identificar la siguiente serie de beneficios:
- Simplificación de la arquitectura de datos, dado que únicamente se gestiona un repositorio de datos.
- Mejor calidad de los datos, debido a que estos pueden tener una mayor coherencia y proceder de fuentes más actualizadas.
- Relación coste/almacenamiento, ya que se puede concentrar una gran cantidad de datos en un almacenamiento de bajo coste.
- Fiabilidad, gracias a la centralización de datos en una ubicación única que, a su vez, evita duplicidades.
- Y, finalmente, escalabilidad, gracias también al bajo coste que supone el almacenaje.
El impacto a nivel de implementación de Fabric, por su parte, podemos decir que es prácticamente inmediato. Dado que se trata de un SaaS, en cuanto se dispone de la correspondiente licencia ya es posible trabajar con esta solución. Aunque, eso sí, hay que tener en cuenta que el periodo de formación necesario para extraerle realmente todo el partido puede ser más largo, a lo que convendría sumarle también la incorporación de datos al sistema y su correspondiente organización y preparación. Y, además, hay que contar con personas con capacidad para analizar debidamente esos datos, de tal manera que no es aconsejable para usuarios finales.
¿Quieres más información? Contacta con nosotros
A lo largo de los últimos párrafos te hemos explicado hasta qué punto la combinación de Data Lakehouse y Fabric puede revolucionar el análisis de datos. Desde AWERTY, estamos siempre atentos a las últimas novedades e innovaciones tecnológicas, para que nuestros clientes puedan obtener siempre de ellas el máximo rendimiento. No obstante, si tienes alguna duda o pregunta que plantearnos, ponte en contacto con nosotros. Estaremos encantados de darte todas las respuestas que necesites. Sin compromiso.
Ante todo, queremos convertirnos en tu partner tecnológico de referencia, ayudarte y guiarte para que puedas aprovechar al máximo todo lo que la transformación digital puede hacer para modernizar tu negocio. La satisfacción de nuestros más de 2.500 clientes y nuestros más de 25 años de experiencia en el sector de las Tecnologías de la Información son nuestras mejores cartas de presentación.