DataSkills è una realtà che opera a tutto campo nel mondo della data science

Modelli Big Data

Come si analizzano i Big Data?

Come già accennato, l'enorme quantità di dati complessi che prende il nome di big data non può essere analizzata con i tradizionali RDBMS (Relational Database Management System), poiché questi ultimi non sono in grado di gestirne né l'archiviazione né l'analisi in velocità.

Al contrario, per analizzare i big data, gli operatori di mercato sono soliti utilizzare sistemi con elevata scalabilità e soluzioni basati sulla NoSQL (ossia sistemi software dove la persistenza dei dati è caratterizzata dal fatto di non utilizzare il modello relazionale normalmente utilizzato dai RDBMS). Questi archivi di dati, di norma, non richiedono uno schema fisso (schemaless), possono evitare le operazioni di unione e puntano a scalare in modo orizzontale.

La Business Analytics ha portato alla nascita di modelli di rappresentazione in grado di gestire i big data attraverso elaborazioni in parallelo dei database.


Tra le tecnologie utilizzate per analizzare i big data, McKinsey già nel 2011 consigliava le seguenti:
  • crowdsourcing
  • fusione e integrazione dei dati
  • algoritmi genetici
  • machine learning
  • simulazione

Per quanto riguarda invece grandi aziende come Google o Facebook, entrambe utilizzano strumenti appositi per l'analisi della grandissima mole di dati di cui dispongono.

Tra le tecnologie open source, la più diffusa e utilizzata è Apache Hadoop, già definibile come tecnologia trainante del mercato dei big data, anche perché porta con sé la capacità di processare grandi quantità di dati a costi contenuti. Hadoop si basa su un file system distribuito su più server, HDFS (Hadoop Distributed File System) e sul framework MapReduce, in grado di eseguire un’interrogazione o un calcolo, suddividendolo e distribuendolo su più nodi. In questo modo Hadoop risolve i problemi dovuti a dati così grandi da non poter essere gestiti su una sola macchina.

Le tecnologie open source, in generale basate su commodity hardware, non sono le uniche in grado di gestire una gran quantità di dati: esistono infatti soluzioni basate su architetture hardware MPP (Massively Parallel Processing), utilizzate in ambito data warehousing. Soluzioni di questo tipo non sono però adatte a far fronte ad un’altra caratteristica dei big data: l’eterogeneità dei formati e la presenza di dati destrutturati (Variety).