Con Data Mining si intende una parte dell’Intelligenza Artificiale che permette l’individuazione di pattern, ovvero di modelli ricorrenti, all’interno di un’enorme mole di dati.
Fa parte di un processo più grande detto Knowledge Discovery in Database (KDD) che conta al suo interno vari passi prima che vi sia la trasformazione dei Big Data in informazioni rilevanti. Solo dopo aver individuato l’obiettivo che si vuole raggiungere e selezionato i dati da analizzare, eliminando contemporaneamente quelli superflui per velocizzare l’individuazione di pattern, vi è la fase di Data Mining.
Successivamente il KDD si conclude con un’interpretazione e valutazione dei risultati raggiunti.
Diversi tipi di analisi dei dati
Non tutte le analisi di grandi quantità di dati, però, costituiscono il Data Mining. Si potrebbero infatti individuare tre differenti tipi di analisi:
- Analisi descrittiva: dall’analisi dei dati è possibile capire che cosa è successo;
- Analisi predittiva: permette di prevedere che cosa accadrà;
- Analisi prescrittiva: dà gli strumenti necessari per determinare cosa si vuole fare.
Di queste tre, solamente l’analisi predittiva è quella che comprende al suo interno il Data Mining.
Per far sì che gli algoritmi siano in grado di trovare al loro interno dei pattern ricorrenti, è necessario avere una gran mole di dati i quali, inoltre, devono avere tra di loro relazioni complesse, difficilmente individuabili dall’uomo. Solo così l’adozione di questa tecnica può davvero portare ad un valore aggiunto.
Diversi tecniche di Data Mining
Quando si parla di Data Mining bisogna considerare che sono diverse le tecniche, e dunque anche gli algoritmi, che possono essere utilizzati. La loro scelta dipende dall’obiettivo che si vuole raggiungere e dal tipo di dato da analizzare.
Tra tutte le tecniche esistenti, quelle in assoluto più utilizzate sono:
- Clustering ovvero la segmentazione di un gruppo eterogeneo in sottogruppi (cluster) omogenei. Sarà compito del Data Analyst capire il significato di questi raggruppamenti ed estrarne un’informazione utile. È la tecnica utilizzata quando ancora non si conosce la struttura che si vuole scoprire;
- Reti neurali che prevede l’utilizzo di tecniche statistiche per costruire modelli di comportamento partendo da un insieme dati già clusterizzati. Questa tecnica viene utilizzata ad esempio per effettuare previsioni di vendita;
- Alberi di decisione ovvero la creazione di un modello predittivo. Viene definito albero in quanto ogni nodo rappresenta una possibile variabile. È utilizzato per classificare le istanze di una grande quantità di dati.
- Individuazione di associazioni per cercare di creare un nesso tra i dati. Ad esempio, in ambito marketing viene utilizzato per capire quando ad un determinato acquisto ne segue un altro.
Il Data Mining non è Machine Learning
Quando si parla di Data Mining, non bisogna confonderlo con il Machine Learning. La differenza principale è che mentre quest’ultimo impara a riconoscere modelli ed ad aggiungervi informazioni partendo già da una conoscenza del pattern individuato, il Data Mining esplora una grossa mole di dati per trovare nuovi modelli fino a quel momento non ancora scoperti.
Come utilizzare i modelli individuati?
Le informazioni ottenute dal Data Mining possono essere utilizzate per fare business analysis e individuare così sia nuove opportunità che minacce.
L’azienda utilizzando informazioni che già possiede ma che fino a quel momento non era riuscita a leggere ed interpretare correttamente, può sviluppare al meglio il proprio business, analizzare la concorrenza e verificare il livello di rischio che si sta correndo.
Utilizzerà poi tutte le informazioni e modelli ottenuti per prendere decisioni con una maggiore conoscenza e consapevolezza.
Sources: IntelligenzaArtificiale, 123RF