Data Mining

Data Mining

text_data_mining

Il data mining è quell’insieme di tecniche e metodologie che hanno per oggetto l’estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semi-automatici) e l’utilizzo scientifico, industriale o operativo di questo sapere.

Se esaminiamo come le modalità di analisi dei dati si sono evolute negli anni, notiamo come da indagini effettuate direttamente sulle fonti operazionali, si è passati, a partire dagli anni ’90, all’utilizzo di una base dati creata appositamente: il data warehouse.

Con il data warehouse e i database multidimensionali è possibile analizzare i dati non solo al massimo livello di dettaglio, ma anche a diversi livelli di aggregazione, e, inoltre, eseguendo operazione di drill-down o slicing e dicing si ottengono dinamicamente prospettive diverse del dato. Tuttavia si tratta sempre di una visione storica, che consente soltanto una valutazione a consuntivo di ciò che è accaduto nel passato, oppure di ciò che sta accadendo ora.

Più di recente, a partire dai primi anni 2000, ha cominciato ad affermarsi la necessità di effettuare analisi previsionali, per anticipare gli eventi e ottenere un vantaggio di business. La grande quantità di dati disponibili ha reso inoltre necessaria l’adozione di tecniche di analisi efficienti e in grado di lavorare su valori numerici, testuali o binari (per es. le immagini).
Le tecniche di analisi, a cui ci riferiamo, prendono il nome di data mining, poiché consentono di “scavare” nei dati ed estrarre informazioni, pattern e relazioni non immediatamente identificabili e non note a priori. Il data mining può essere utilizzato in qualsiasi settore economico.
Definizione tecnica di data mining e KDD
Le informazioni a disposizione creano in ambito aziendale la necessità di essere investigate. Le strategie formulate a livello aziendale hanno bisogno di essere convalidate sul piano quantitativo, basandosi sull’utilizzo di metodi o algoritmi.
La conoscenza però non è una risorsa facile da estrarre, in quanto deriva dall’applicazione di un processo che coinvolge molti settori (IT, marketing, finanza, risk management) che devono coesistere integrati.
Con il termine KDD (Knowlegde Discovery in Database) si intende tutto il processo di estrazione di conoscenza applicato ai database o anche in generale a delle informazioni o a dati non strutturati; in sintesi si può meglio dire che è il processo che estrae conoscenza da alcuni pattern generati dai dati.
Fasi dell’attività di KDD e data mining
Possiamo formalmente elencare il processo di KDD in questi passi :
• Selezione: estrazione di parte dei dati secondo alcuni criteri, i quali dipendono dall’obiettivo preposto all’analisi. Facendo riferimento alla metodologia statistica, si usa il termine campionamento dei dati.
Pre-elaborazione: “pulizia”dei dati da certe informazioni ritenute inutili e che possono rallentare le future interrogazioni. In questa fase, inoltre, i dati possono essere trasformati per evitare eventuali inconsistenze dovute al fatto che dati simili possono provenire da sorgenti diverse e quindi con metadati leggermente diversi (ad esempio in un database il sesso di una persona può essere salvato come `m’ o `f’ ed in un altro come 0 o 1).
Trasformazione: i dati non sono semplicemente trasferiti da un archivio ad uno nuovo, ma sono trasformati in modo tale che sia possibile anche aggiungere informazione a questi, come per esempio informazioni demografiche comunemente usate nella ricerca di mercato. Quindi i dati vengono resi “usabili e navigabili”.
Data mining: questo stadio si occupa di estrarre dei modelli dai dati. Un modello può essere definito come segue: dato un insieme di fatti (i dati) F, un linguaggio L ed alcune misure di certezza C, un modello è una dichiarazione S nel linguaggio L che descrive le relazioni che esistono tra i dati di un sottoinsieme G di F con una certezza e tale che S sia più semplice in qualche modo della enumerazione dei fatti contenuti in G.
• Interpretazione e valutazione: i modelli identificati dal sistema vengono interpretati cosicché la conoscenza che se ne acquisisce può essere di supporto alle decisioni, quali ad esempio la previsione, la classificazione di elementi, il riassunto dei contenuti di un database o la spiegazione dei fenomeni osservati.
Definizioni Tecniche liberamente estratte dal libro Data Mining Metodi e strategie di Dulli, Furlini, Peron edito da Springer.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *