DataSkills è una realtà che opera a tutto campo nel mondo della data science

Metodologia per il Data Mining

​Adottiamo una metodologia Aglie per la realizzazione dei progetti di data mining, che​ ​si basa sul modello CRISP-DM.
CRISP-DM, che sta per “Cross Industry Standard Process for Data Mining” è un metodo di comprovata efficacia per la costruzione di un modello di data mining.
Il presupposto della metodologia risiede nella volontà di rendere il processo di data mining affidabile e utilizzabile da persone con pochi skill in materia, ma con elevata conoscenza del business. La metodologia fornisce un framework che prevede sei fasi, che possono essere ripetute ciclicamente con l’obiettivo di revisionare e rifinire il modello previsionale:

  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation
  • Deployment
I lavori di definizione dello standard prendono avvio nel 1996 come iniziativa finanziata dall’Unione Europea e portata avanti da un consorzio di quattro società: SPSS, NCR Corporation, Daimler-Benz e OHRA.

La prima versione della metodologia vede la luce nel 1999, mentre nel 2006 iniziano i lavori per definire lo standard CRISP-DM 2.0. Tuttavia, la seconda versione non ha mai visto la luce e nessun tipo di attività o comunicazione è più pervenuta dal gruppo di lavoro dal 2007, tant’è che anche il sito web non è più attivo da parecchio tempo. Nonostante questo la metodologia CRISP-DM è valida ed è stata largamente adottata dalle aziende che hanno affrontato progetti di data mining.