Introduzione ai Big Data: definizione

24 Ottobre 2017 By Alessandro Rezzani No comments yet big data, data scientist, Libro, Machine Learning, Predictive Analytics

È possibile affermare che il fenomeno Big Data abbia avuto inizio nel 2011, come semplice buzzword – ossia parola di tendenza utilizzata, in quello specifico momento storico, per promuovere sostanzialmente prodotti e servizi informatici invece che risolvere le problematiche legate all’estrazione di valori da enormi quantità di dati.

Col tempo, naturalmente, le tecnologie e le soluzioni hanno subito un’evoluzione esponenziale e, soprattutto con la sempre maggiore disponibilità di piattaforme cloud, le opportunità di sfruttare l’infinito potenziale dei Big Data sono diventate sempre più numerose.

Ad oggi, anche in Italia sono molte le aziende che utilizzano già da qualche tempo sistemi come Hadoop e Spark per laraccolta e l’elaborazione di grandi masse di dati. Parliamo in special modo dei grandi gruppi bancari, ma non solo. In ogni caso, gli obiettivi rimangono sempre gli stessi: ridurre i costi che tecnologie di questo genere possono generare in termini di licenze e storage e analizzare dati in modo profondo e dettagliato. Quest’ultima è, attualmente, un’attività possibile non soltanto in modo performante e utile, ma anche con costi meno onerosi rispetto al passato, quando il rapporto-qualità prezzo non era certamente dei migliori.

Le analisi sui Big Data sono condotte innanzitutto con strumenti di analisi descrittiva già presenti in azienda. La differenza rispetto al passato è che questi sono ora dotati di connettori in grado di interfacciarsi con le nuove basi di dati. Ciò che però è essenziale comprendere è che il valore aggiunto oggi garantito dai Big Dataè il risultato dell’impiego di tecniche di analisi avanzata – come quella prescrittiva e predittiva – che sono in grado di creare reali vantaggi competitivi per le aziende. Diversamente dall’analisi descrittiva, quelle prescrittiva e predittiva hanno la peculiarità di non rivolgersi al passato per misurarne gli effetti, quanto piuttosto di proiettarsi nel futuro e prevederne i possibili eventi. È soltanto in questo modo che i manager delle aziende hanno la possibilità di prendere decisioni addirittura anticipate rispetto a specifici accadimenti probabili.

Ora che abbiamo introdotto l’argomento dei Big Data, è importante definire al meglio il significato del termine.

I Big Data sono dati che presentano una o più delle caratteristiche identificate con il nome di “tre V”:

Volume: inteso come quantità elevate di dati, ossia a partire da decine di terabyte in su. I Big Data hanno volumi imponenti, e ancora maggiori se considerati al loro massimo livello di granularità.
Velocità: intesa come rapidità con la quale i dati vengono prodotti, che è altissima. Un esempio pratico è rappresentato dall’Internet of Things, che genera dati a velocità assai elevate.
Varietà: intesa come diversità di formati, fonti e strutture. I Big Data, peraltro, possono persino non presentare affatto una struttura.

Queste tre caratteristiche sono le principali di cui tenere conto, nell’ambito della definizione dei Big Data, sebbene debba essere precisato per correttezza che alcuni esperti hanno scelto di aggiungere ad esse altri parametri discriminanti. Nonostante questo, preferiamo concentrare la nostra attenzione su concetti quali la convenienza economica e i limiti tecnologici di alcune soluzioni di data management. In questo senso, i Big Data possono essere definiti come:

Dati non analizzabili attraverso le tecnologie tradizionali
Dati per cui l’adozione di tecnologia tradizionali risulti esageratamente onerosa da un punto di vista economico

Ma cosa intendiamo esattamente per tecnologie tradizionali? Ci riferiamo ai database relazionali (RDBMS, Relational Database Management Systems) per quanto concerne le basi dati e gli strumenti analisi descrittiva che li utilizzano come sorgenti. Al contempo, parliamo anche di tool di analisi predittiva con evidenti limiti al crescere dei volumi di dati o alla perdita delle strutture tabellari.

In buona sostanza, all’aumentare dei volumi dei Big Data comincia a diminuire la convenienza economica dei sistemi di analisi delle tecnologie tradizionali, così come ne viene a mancare l’affidabilità tecnica.

Per quanto riguarda infine il concetto della velocità, va chiarito fin da subito che essa può produrre criticità soprattutto nella cosiddetta fase di data ingestion, ossia di acquisizione del dato, così come in quella del suo salvataggio.

In conclusione, il termine Big Data deve necessariamente inquadrare non soltanto dati che abbiano una o più delle caratteristiche tre V che abbiamo descritto, ma anche le tecnologie in grado di risolvere qualunque criticità tecnica ed economica in termini di acquisizione, conservazione e analisi delle informazioni.

Introduzione ai Big Data: definizione

Leave A Comment Annulla risposta

Ultimi Articoli

Categorie

Contattaci Ora

Newsletter

Social

Azienda

Servizi

Contatti

Newsletter

Iscrivi alla newsletter