Come creare un modello di Data Mining

modelli data mining

Nella costruzione dei modelli di data mining applichiamo una metodologia di lavoro che prevede più fasi:

  • La scelta dell’algoritmo di calcolo. Essa è basata sull’analisi del problema di data mining da risolvere
  • La preparazione dei dati. Qualora l’algoritmo richieda elaborazioni particolari, è necessario preparare dati, applicando, per esempio procedimenti di discretizzazione, normalizzazione, creazione di variabili binarie, ecc..
  • La scelta dei parametri base di configurazione dell’algoritmo.
  • La suddivisione dei dati disponibili in training set e test set. Nel costruire un modello di data mining occorre operare una suddivisione dei dati disponibili in due insiemi: uno, contenente un’ampia percentuale dei dati, costituisce il training set, cioè l’insieme dei dati su cui l’algoritmo scelto è calibrato. L’altro rappresenta il test set, cioè l’insieme di dati su cui si eseguirà il test del modello per verificarne la bontà. Il test set ovviamente contiene anche l’attributo o gli attributi che sono il risultato dell’attività predittiva del modello. In questo modo sarà possibile confrontare i dati reali con quelli previsti ed eseguire così una valutazione.
  • L’avvio della fase di training dell’algoritmo. Nella fase di training l’algoritmo analizza le relazioni nascoste nei dati e imposta il modello di data mining.
  • La valutazione. Una volta creato, occorre valutare le performance predittive del modello, utilizzando tecniche quali la matrice di confusione e la curva ROC.
  • Il feedback. A fronte dell’effettivo utilizzo del modello riteniamo necessaria la valutazione dei reali risultati che concorrono, nelle iterazioni successive a migliorare l’impostazione del modello.

Il procedimento è iterativo, poiché, è spesso necessario operare aggiustamenti sui parametri o sulle trasformazioni del data set per migliorare sia la performance predittiva sul test set, in fase di progettazione, sia le performance reali, nella fase di feedback.

 

Avatar User 2 1549298890

Alessandro Rezzani

Chief Executive Officer
Fondatore di Dataskills, attivo nella Data Science sin dai primi anni 2000, Alessandro Rezzani è tra i pionieri italiani nella progettazione di Data Warehouse e Data Lake. Autore di tre libri su Business Intelligence e Big Data, è docente all’Università Bocconi e alla SDA Bocconi. In Dataskills guida le scelte tecnologiche e architetturali, assicurando l’adozione di soluzioni innovative e ad alte prestazioni.

Comments are closed.

Iscrivi alla newsletter



    Dichiaro di aver letto ed accetto l’informativa sulla privacy

    Avatar User 2 1549298890

    Alessandro Rezzani

    Chief Executive Officer
    Fondatore di Dataskills, attivo nella Data Science sin dai primi anni 2000, Alessandro Rezzani è tra i pionieri italiani nella progettazione di Data Warehouse e Data Lake. Autore di tre libri su Business Intelligence e Big Data, è docente all’Università Bocconi e alla SDA Bocconi. In Dataskills guida le scelte tecnologiche e architetturali, assicurando l’adozione di soluzioni innovative e ad alte prestazioni.