Scegliere l’infrastruttura giusta per i tuoi dati: Data Warehouse vs. Data Lake

Come abbiamo visto in un precedente articolo, uno dei passi fondamentali per definire una corretta strategia di gestione dei dati aziendali è quello della scelta del tipo di architettura da utilizzare.

Questa scelta è sicuramente influenzata sia dal tipo di dati che l’impresa intende impiegare nelle proprie analisi, dalle peculiarità delle fonti o delle regole di business, sia dagli obiettivi che la Data Strategy si pone.

Esaminiamo ora due dei tipi di infrastruttura per lo storage e la gestione dei dati più utilizzate: i Data Warehouse e i Data Lake. Innanzitutto, è necessario conoscere in cosa consistono le due architetture per poi decidere, dopo un’attenta valutazione delle differenze fra i due approcci, quale meglio si addice alle necessità della nostra impresa.

 

Il Data Warehouse (DWH)

 

Il Data Warehouse è una struttura che contiene in modo ordinato tutti i dati provenienti – in genere – dalle fonti operazionali (gestionale ERP, CRM, SCM, E-Commerce…) raccolti dopo le trasformazioni ETL (Extract, Transform and Load) e controllate attraverso il sistema di Data Quality. In altre parole, il Data Warehouse rappresenta il cuore pulsante del sistema di gestione dei dati, che accentra l’intero patrimonio dati aziendale in un unico punto d’accesso per le attività analitiche e garantisce la conservazione della profondità storica dei dati per permettere analisi temporali rapide e fruibili agli utenti Business.

 

Il Data Lake

 

Il Data Lake è una repository per lo storage dei dati che è in grado di conservare grandi quantità di dati eterogenei, strutturati, semi-strutturati e non strutturati in diversi formati. Come il Data Warehouse anch’esso idealmente raccoglie all’interno di sé l’intero patrimonio dati dell’impresa, con la differenza principale che i dati vengono caricati nel Data Lake nel formato originale, senza passare per le procedure di ETL o altre trasformazioni.

 

Quale scegliere?

 

Per capire quale struttura meglio si adatta alle esigenze della nostra impresa è necessario determinare i vantaggi e gli svantaggi principali offerti da ciascun approccio. Innanzitutto, è bene ricordare che non si tratta di una scelta di tipo aut aut, un’impresa potrebbe anche scegliere di implementare sia un DWH sia un Data Lake, dal momento che le due strutture possono svolgere funzioni diverse.

In generale, il Data Warehouse contiene dati strutturati, rappresentabili in un formato tabellare. Questo tipo di dati proviene tipicamente dai gestionali dell’impresa e deve necessariamente essere “ripulito” prima di entrare a tutti gli effetti nel DWH.

Nel Data Lake, invece, possono confluire tutti i dati provenienti da fonti più eterogenee, come dispositivi IoT, siti web, social media, applicazioni mobile, che non necessariamente possiedono una struttura ben definita (si pensi, ad esempio, ai tweet di un politico o ad una fotografia). In altre parole, se nel Data Warehouse sono presenti solo dati elaborati e curati, rappresentabili in formato tabellare e pronti per essere utilizzati dagli analisti di business, nel Data Lake possono entrare a far parte anche dati “grezzi” e non strutturati, che richiedono maggiori competenze per essere sfruttati al meglio. Il principale rischio legato al Data Lake è infatti che ci si trovi in una situazione detta “Data Swamp”, ossia balia di una grande mole di dati destrutturati impossibili da utilizzare in assenza di data scientist e sviluppatori altamente qualificati.

Tuttavia, se correttamente gestito, il Data Lake, grazie alla sua maggiore flessibilità e la sua capacità di immagazzinare qualsiasi tipo di dato nel suo formato originale, meglio si presta per lo sviluppo di attività di Machine Learning, Predictive Analytics e Data Mining, oltre a richiedere minori costi e tempi di progettazione generalmente più brevi.

Dall’altro lato, il Data Warehouse, nonostante richieda un’attenta pianificazione ex-ante e aggiornamenti periodici, è in grado di fornire le migliori performance in termini di interrogazione dei database, fornendo dati aggiornati, puliti e ordinati, già pronti per essere utilizzati dagli analisti di business senza la necessità di particolari manipolazioni.

 

Di seguito uno schema riassuntivo delle principali differenze fra le due architetture:

 

È quindi chiaro che l’architettura del Data Warehouse è preferibile se in azienda non sono presenti un capitale umano e una cultura dei dati tali da garantire la possibilità di sfruttare appieno le caratteristiche più vantaggiose del Data Lake. Quest’ultimo infatti, grazie alla sua maggiore flessibilità, risulta uno strumento migliore per la gestione dei cambiamenti rapidi nelle logiche di business e per le attività connesse ai Big Data ma, se non amministrato correttamente, difficilmente sarà preciso e fruibile come il Data Warehouse.

Avendo a disposizioni sufficienti risorse, si potrebbe suggerire la costruzione di un Data Warehouse per le attività di Business Intelligence che comprendano la gestione dei dati di business “tradizionali” (vendite, prodotti, clienti), affiancata alla creazione di un Data Lake che raccolga invece i dati non rappresentabili in formato tabellare (email, tweet, immagini, documenti, file audio…) per le attività di Machine Learning, Predictive Analytics e Data Mining.

Andrea Bergonzi

Sono laureato in Economia, Finanza e Mercati Internazionali presso l’Università Cattolica di Milano. Prima di terminare gli studi, ho ricoperto il ruolo di analista dei mercati finanziari presso una società di consulenza e ho collaborato come Research Editor con una società di Singapore. Dal 2020 sono membro di Dataskills, dove mi occupo di Data Science e Business Intelligence.

Iscrivi alla newsletter







Dichiaro di aver letto ed accetto l’informativa sulla privacy

Andrea Bergonzi

Sono laureato in Economia, Finanza e Mercati Internazionali presso l’Università Cattolica di Milano. Prima di terminare gli studi, ho ricoperto il ruolo di analista dei mercati finanziari presso una società di consulenza e ho collaborato come Research Editor con una società di Singapore. Dal 2020 sono membro di Dataskills, dove mi occupo di Data Science e Business Intelligence.