DataSkills è una realtà che opera a tutto campo nel mondo della data science

Modelli

Nella costruzione dei modelli di data mining applichiamo una metodologia di lavoro che prevede più fasi:

  • La scelta dell’algoritmo di calcolo. Essa è basata sull’analisi del problema di data mining da risolvere
  • La preparazione dei dati.Qualora l’algoritmo richieda elaborazioni particolari, è necessario preparare dati, applicando, per esempio procedimenti di discretizzazione, normalizzazione, creazione di variabili binarie, ecc..
  • La scelta dei parametri base di configurazione dell’algoritmo.
  • La suddivisione dei dati disponibili in training set e test set. Nel costruire un modello di data mining occorre operare una suddivisione dei dati disponibili in due insiemi: uno, contenente un’ampia percentuale dei dati, costituisce il training set, cioè l’insieme dei dati su cui l’algoritmo scelto è calibrato. L’altro rappresenta il test set, cioè l’insieme di dati su cui si eseguirà il test del modello per verificarne la bontà. Il test set ovviamente contiene anche l’attributo o gli attributi che sono il risultato dell’attività predittiva del modello. In questo modo sarà possibile confrontare i dati reali con quelli previsti ed eseguire così una valutazione.
  • L’avvio della fase di training dell’algoritmo. Nella fase di training l’algoritmo analizza le relazioni nascoste nei dati e imposta il modello di data mining.
  • La valutazione. Una volta creato, occorre valutare le performance predittive del modello, utilizzando tecniche quali la matrice di confusione e la curva ROC.
  • Il feedback. A fronte dell’effettivo utilizzo del modello riteniamo necessaria la valutazione dei reali risultati che concorrono, nelle iterazioni successive a migliorare l’impostazione del modello.

Il procedimento è iterativo, poiché, è spesso necessario operare aggiustamenti sui parametri o sulle trasformazioni del data set per migliorare sia la performance predittiva sul test set, in fase di progettazione, sia le performance reali, nella fase di feedback.