Nella costruzione dei modelli di data mining applichiamo una metodologia di lavoro che prevede più fasi:

  • La scelta dell’algoritmo di calcolo. Essa è basata sull’analisi del problema di data mining da risolvere
  • La preparazione dei dati.Qualora l’algoritmo richieda elaborazioni particolari, è necessario preparare dati, applicando, per esempio procedimenti di discretizzazione, normalizzazione, creazione di variabili binarie, ecc..
  • La scelta dei parametri base di configurazione dell’algoritmo.
  • La suddivisione dei dati disponibili in training set e test set. Nel costruire un modello di data mining occorre operare una suddivisione dei dati disponibili in due insiemi: uno, contenente un’ampia percentuale dei dati, costituisce il training set, cioè l’insieme dei dati su cui l’algoritmo scelto è calibrato. L’altro rappresenta il test set, cioè l’insieme di dati su cui si eseguirà il test del modello per verificarne la bontà. Il test set ovviamente contiene anche l’attributo o gli attributi che sono il risultato dell’attività predittiva del modello. In questo modo sarà possibile confrontare i dati reali con quelli previsti ed eseguire così una valutazione.
  • L’avvio della fase di training dell’algoritmo. Nella fase di training l’algoritmo analizza le relazioni nascoste nei dati e imposta il modello di data mining.
  • La valutazione. Una volta creato, occorre valutare le performance predittive del modello, utilizzando tecniche quali la matrice di confusione e la curva ROC.
  • Il feedback. A fronte dell’effettivo utilizzo del modello riteniamo necessaria la valutazione dei reali risultati che concorrono, nelle iterazioni successive a migliorare l’impostazione del modello.

Il procedimento è iterativo, poiché, è spesso necessario operare aggiustamenti sui parametri o sulle trasformazioni del data set per migliorare sia la performance predittiva sul test set, in fase di progettazione, sia le performance reali, nella fase di feedback.

Alessandro Rezzani

Sono un consulente senior nell’ambito della Business Intelligence, specializzato in analisi di Big Data e tecniche di Analisi Predittiva. Nel 2016 ho fondato Dataskills, presto diventata azienda di riferimento nel territorio italiano per soluzioni di Data Science. Sono anche ricercatore e professore presso l’Università Bocconi di Milano.
Leggi la mia Biografia

Iscrivi alla newsletter





Dichiaro di aver letto ed accetto l’informativa sulla privacy

Alessandro Rezzani

Sono un consulente senior nell’ambito della Business Intelligence, specializzato in analisi di Big Data e tecniche di Analisi Predittiva. Nel 2016 ho fondato Dataskills, presto diventata azienda di riferimento nel territorio italiano per soluzioni di Data Science. Sono anche ricercatore e professore presso l’Università Bocconi di Milano.
Leggi la mia Biografia