
Nella costruzione dei modelli di data mining applichiamo una metodologia di lavoro che prevede più fasi:
- La scelta dell’algoritmo di calcolo. Essa è basata sull’analisi del problema di data mining da risolvere
- La preparazione dei dati. Qualora l’algoritmo richieda elaborazioni particolari, è necessario preparare dati, applicando, per esempio procedimenti di discretizzazione, normalizzazione, creazione di variabili binarie, ecc..
- La scelta dei parametri base di configurazione dell’algoritmo.
- La suddivisione dei dati disponibili in training set e test set. Nel costruire un modello di data mining occorre operare una suddivisione dei dati disponibili in due insiemi: uno, contenente un’ampia percentuale dei dati, costituisce il training set, cioè l’insieme dei dati su cui l’algoritmo scelto è calibrato. L’altro rappresenta il test set, cioè l’insieme di dati su cui si eseguirà il test del modello per verificarne la bontà. Il test set ovviamente contiene anche l’attributo o gli attributi che sono il risultato dell’attività predittiva del modello. In questo modo sarà possibile confrontare i dati reali con quelli previsti ed eseguire così una valutazione.
- L’avvio della fase di training dell’algoritmo. Nella fase di training l’algoritmo analizza le relazioni nascoste nei dati e imposta il modello di data mining.
- La valutazione. Una volta creato, occorre valutare le performance predittive del modello, utilizzando tecniche quali la matrice di confusione e la curva ROC.
- Il feedback. A fronte dell’effettivo utilizzo del modello riteniamo necessaria la valutazione dei reali risultati che concorrono, nelle iterazioni successive a migliorare l’impostazione del modello.
Il procedimento è iterativo, poiché, è spesso necessario operare aggiustamenti sui parametri o sulle trasformazioni del data set per migliorare sia la performance predittiva sul test set, in fase di progettazione, sia le performance reali, nella fase di feedback.
Comments are closed.
