Modelli Big Data

modelli di big data

Come si analizzano i Big Data?

L’enorme quantità di dati complessi che prende il nome di Big Data non può essere analizzata con i tradizionali RDBMS (Relational Database Management System), poiché questi ultimi non sono in grado di gestirne né l’archiviazione né l’analisi in velocità.

Al contrario, per analizzare i Big Data, gli operatori di mercato sono soliti utilizzare sistemi con elevata scalabilità e soluzioni basati sulla NoSQL (ossia sistemi software dove la persistenza dei dati è caratterizzata dal fatto di non utilizzare il modello relazionale normalmente utilizzato dai RDBMS). Questi archivi di dati, di norma, non richiedono uno schema fisso (schemaless), possono evitare le operazioni di unione e puntano a scalare in modo orizzontale.

La Business Analytics ha portato alla nascita di modelli di rappresentazione in grado di gestire i Big Data attraverso elaborazioni in parallelo dei database.

 

Tra le tecnologie utilizzate per analizzare i Big Data, McKinsey già nel 2011 consigliava le seguenti:

  • crowdsourcing
  • fusione e integrazione dei dati
  • algoritmi genetici
  • machine learning
  • simulazione

Per quanto riguarda invece grandi aziende come Google o Facebook, entrambe utilizzano strumenti appositi per l’analisi della grandissima mole di dati di cui dispongono.

Tra le tecnologie open source, la più diffusa e utilizzata è Apache Hadoop, già definibile come tecnologia trainante del mercato dei Big Data, anche perché porta con sé la capacità di processare grandi quantità di dati a costi contenuti. Hadoop si basa su un file system distribuito su più server, HDFS (Hadoop Distributed File System) e sul framework MapReduce, in grado di eseguire un’interrogazione o un calcolo, suddividendolo e distribuendolo su più nodi. In questo modo Hadoop risolve i problemi dovuti a dati così grandi da non poter essere gestiti su una sola macchina.

Le tecnologie open source, in generale basate su commodity hardware, non sono le uniche in grado di gestire una gran quantità di dati: esistono infatti soluzioni basate su architetture hardware MPP (Massively Parallel Processing), utilizzate in ambito data warehousing. Soluzioni di questo tipo non sono però adatte a far fronte ad un’altra caratteristica dei Big Data: l’eterogeneità dei formati e la presenza di dati destrutturati (Variety).

Avatar User 2 1549298890

Alessandro Rezzani

Sono un consulente senior nell’ambito della Business Intelligence, specializzato in analisi di Big Data e tecniche di Analisi Predittiva. Nel 2016 ho fondato Dataskills, presto diventata azienda di riferimento nel territorio italiano per soluzioni di Data Science. Sono anche ricercatore e professore presso l’Università Bocconi di Milano.
Leggi la mia Biografia

Leave A Comment

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Iscrivi alla newsletter














    Dichiaro di aver letto ed accetto l’informativa sulla privacy

    Avatar User 2 1549298890

    Alessandro Rezzani

    Sono un consulente senior nell’ambito della Business Intelligence, specializzato in analisi di Big Data e tecniche di Analisi Predittiva. Nel 2016 ho fondato Dataskills, presto diventata azienda di riferimento nel territorio italiano per soluzioni di Data Science. Sono anche ricercatore e professore presso l’Università Bocconi di Milano.
    Leggi la mia Biografia