DataSkills è una realtà che opera a tutto campo nel mondo della data science

Introduzione ai Big Data: definizione

big-data-thumb

Introduzione ai Big Data: definizione

24 ottobre 2017
|
0 Comments
|

È possibile affermare che il fenomeno Big Data abbia avuto inizio nel 2011, come semplice buzzword – ossia parola di tendenza utilizzata, in quello specifico momento storico, per promuovere sostanzialmente prodotti e servizi informatici invece che risolvere le problematiche legate all’estrazione di valori da enormi quantità di dati.

Col tempo, naturalmente, le tecnologie e le soluzioni hanno subito un’evoluzione esponenziale e, soprattutto con la sempre maggiore disponibilità di piattaforme cloud, le opportunità di sfruttare l’infinito potenziale dei Big Data sono diventate sempre più numerose.

Ad oggi, anche in Italia sono molte le aziende che utilizzano già da qualche tempo sistemi come Hadoop e Spark per laraccolta e l’elaborazione di grandi masse di dati. Parliamo in special modo dei grandi gruppi bancari, ma non solo. In ogni caso, gli obiettivi rimangono sempre gli stessi: ridurre i costi che tecnologie di questo genere possono generare in termini di licenze e storage e analizzare dati in modo profondo e dettagliato. Quest’ultima è, attualmente, un’attività possibile non soltanto in modo performante e utile, ma anche con costi meno onerosi rispetto al passato, quando il rapporto-qualità prezzo non era certamente dei migliori.

Le analisi sui Big Data sono condotte innanzitutto con strumenti di analisi descrittiva già presenti in azienda. La differenza rispetto al passato è che questi sono ora dotati di connettori in grado di interfacciarsi con le nuove basi di dati. Ciò che però è essenziale comprendere è che il valore aggiunto oggi garantito dai Big Data è il risultato dell’impiego di tecniche di analisi avanzata – come quella prescrittiva e predittiva – che sono in grado di creare reali vantaggi competitivi per le aziende. Diversamente dall’analisi descrittiva, quelle prescrittiva e predittiva hanno la peculiarità di non rivolgersi al passato per misurarne gli effetti, quanto piuttosto di proiettarsi nel futuro e prevederne i possibili eventi. È soltanto in questo modo che i manager delle aziende hanno la possibilità di prendere decisioni addirittura anticipate rispetto a specifici accadimenti probabili.

Ora che abbiamo introdotto l’argomento dei Big Data, è importante definire al meglio il significato del termine.

Scarica il primo capitolo

I Big Data sono dati che presentano una o più delle caratteristiche identificate con il nome di “tre V”:

  1. Volume: inteso come quantità elevate di dati, ossia a partire da decine di terabyte in su. I Big Data hanno volumi imponenti, e ancora maggiori se considerati al loro massimo livello di granularità.

  2. Velocità: intesa come rapidità con la quale i dati vengono prodotti, che è altissima. Un esempio pratico è rappresentato dall’Internet of Things, che genera dati a velocità assai elevate.

  3. Varietà: intesa come diversità di formati, fonti e strutture. I Big Data, peraltro, possono persino non presentare affatto una struttura.

Queste tre caratteristiche sono le principali di cui tenere conto, nell’ambito della definizione dei Big Data, sebbene debba essere precisato per correttezza che alcuni esperti hanno scelto di aggiungere ad esse altri parametri discriminanti. Nonostante questo, preferiamo concentrare la nostra attenzione su concetti quali la convenienza economica e i limiti tecnologici di alcune soluzioni di data management. In questo senso, i Big Data possono essere definiti come:

  • Dati non analizzabili attraverso le tecnologie tradizionali

  • Dati per cui l’adozione di tecnologia tradizionali risulti esageratamente onerosa da un punto di vista economico

Ma cosa intendiamo esattamente per tecnologie tradizionali? Ci riferiamo ai database relazionali (RDBMS, Relational Database Management Systems) per quanto concerne le basi dati e gli strumenti analisi descrittiva che li utilizzano come sorgenti. Al contempo, parliamo anche di tool di analisi predittiva con evidenti limiti al crescere dei volumi di dati o alla perdita delle strutture tabellari.

In buona sostanza, all’aumentare dei volumi dei Big Data comincia a diminuire la convenienza economica dei sistemi di analisi delle tecnologie tradizionali, così come ne viene a mancare l’affidabilità tecnica.

Per quanto riguarda infine il concetto della velocità, va chiarito fin da subito che essa può produrre criticità soprattutto nella cosiddetta fase di data ingestion, ossia di acquisizione del dato, così come in quella del suo salvataggio.

In conclusione, il termine Big Data deve necessariamente inquadrare non soltanto dati che abbiano una o più delle caratteristiche tre V che abbiamo descritto, ma anche le tecnologie in grado di risolvere qualunque criticità tecnica ed economica in termini di acquisizione, conservazione e analisi delle informazioni.

Big Data Analytics. Il manuale del data scientist

Big Data Analytics. Il manuale del data scientist

Compra su Amazon