Come creare un modello di Data Mining

modelli data mining

Nella costruzione dei modelli di data mining applichiamo una metodologia di lavoro che prevede più fasi:

  • La scelta dell’algoritmo di calcolo. Essa è basata sull’analisi del problema di data mining da risolvere
  • La preparazione dei dati. Qualora l’algoritmo richieda elaborazioni particolari, è necessario preparare dati, applicando, per esempio procedimenti di discretizzazione, normalizzazione, creazione di variabili binarie, ecc..
  • La scelta dei parametri base di configurazione dell’algoritmo.
  • La suddivisione dei dati disponibili in training set e test set. Nel costruire un modello di data mining occorre operare una suddivisione dei dati disponibili in due insiemi: uno, contenente un’ampia percentuale dei dati, costituisce il training set, cioè l’insieme dei dati su cui l’algoritmo scelto è calibrato. L’altro rappresenta il test set, cioè l’insieme di dati su cui si eseguirà il test del modello per verificarne la bontà. Il test set ovviamente contiene anche l’attributo o gli attributi che sono il risultato dell’attività predittiva del modello. In questo modo sarà possibile confrontare i dati reali con quelli previsti ed eseguire così una valutazione.
  • L’avvio della fase di training dell’algoritmo. Nella fase di training l’algoritmo analizza le relazioni nascoste nei dati e imposta il modello di data mining.
  • La valutazione. Una volta creato, occorre valutare le performance predittive del modello, utilizzando tecniche quali la matrice di confusione e la curva ROC.
  • Il feedback. A fronte dell’effettivo utilizzo del modello riteniamo necessaria la valutazione dei reali risultati che concorrono, nelle iterazioni successive a migliorare l’impostazione del modello.

Il procedimento è iterativo, poiché, è spesso necessario operare aggiustamenti sui parametri o sulle trasformazioni del data set per migliorare sia la performance predittiva sul test set, in fase di progettazione, sia le performance reali, nella fase di feedback.

 

Per aumentare le tue conoscenze sull’analisi avanzata dei dati tramite tecniche di data mining, ti invitiamo a visitare la pagina di presentazione dei corsi di data mining e analisi predittiva.

Avatar User 2 1549298890

Alessandro Rezzani

Chief Executive Officer
Fondatore di Dataskills, attivo nella Data Science sin dai primi anni 2000, Alessandro Rezzani è tra i pionieri italiani nella progettazione di Data Warehouse e Data Lake. Autore di tre libri su Business Intelligence e Big Data, è docente all’Università Bocconi e alla SDA Bocconi. In Dataskills guida le scelte tecnologiche e architetturali, assicurando l’adozione di soluzioni innovative e ad alte prestazioni.

Comments are closed.

Iscrivi alla newsletter



    Dichiaro di aver letto ed accetto l’informativa sulla privacy

    Avatar User 2 1549298890

    Alessandro Rezzani

    Chief Executive Officer
    Fondatore di Dataskills, attivo nella Data Science sin dai primi anni 2000, Alessandro Rezzani è tra i pionieri italiani nella progettazione di Data Warehouse e Data Lake. Autore di tre libri su Business Intelligence e Big Data, è docente all’Università Bocconi e alla SDA Bocconi. In Dataskills guida le scelte tecnologiche e architetturali, assicurando l’adozione di soluzioni innovative e ad alte prestazioni.