Un Tour sugli algoritmi predittivi – Machine Learning

Pubblicato il Lascia un commentoPubblicato in Algoritmi Predittivi

 A Tour of Machine Learning Algorithms – Data Science Central

Originally published by Jason Brownlee in 2013, it still is a goldmine for all machine learning professionals.  The algorithms are broken down in several categories. Here we provide a high-level summary, a much longer and detailed version can be found here. You can even download an algorithm map from the original article. Below is a much smaller version.

 

It would be interesting to list, for each algorithm,

  • examples of real world applications,
  • in which contexts it performs well,
  • if it can be used as a black box,
  • ease of use and interpretation,
  • how it handles missing data,
  • enterprise version available or not,
  • integration with existing analytics platforms or real-time systems,
  • constraints on data (e.g. Naive Bayes performs poorly on correlated variables),
  • maintenance/scalability issues,
  • distributed implementation,
  • speed or computational complexity,
  • can easily be blended with other algorithms

and generally speaking, compare these algorithms. I would add HDT, Jackknife regression, density estimation, attribution modeling (to optimize marketing mix), linkage (in fraud detection), indexation (to create taxonomies or for clustering large data sets consisting of text), bucketisation, and time series algorithms.

For more on machine learning (ML), click here.

Ensemble methods to fit data: see original paper

1. Regression Algorithms

  • Ordinary Least Squares Regression (OLSR)
  • Linear Regression
  • Logistic Regression
  • Stepwise Regression
  • Multivariate Adaptive Regression Splines (MARS)
  • Locally Estimated Scatterplot Smoothing (LOESS)

2. Instance-based Algorithms

  • k-Nearest Neighbour (kNN)
  • Learning Vector Quantization (LVQ)
  • Self-Organizing Map (SOM)
  • Locally Weighted Learning (LWL)

3. Regularization Algorithms

  • Ridge Regression
  • Least Absolute Shrinkage and Selection Operator (LASSO)
  • Elastic Net
  • Least-Angle Regression (LARS)

4. Decision Tree Algorithms

  • Classification and Regression Tree (CART)
  • Iterative Dichotomiser 3 (ID3)
  • C4.5 and C5.0 (different versions of a powerful approach)
  • Chi-squared Automatic Interaction Detection (CHAID)
  • Decision Stump
  • M5
  • Conditional Decision Trees

5. Bayesian Algorithms

  • Naive Bayes
  • Gaussian Naive Bayes
  • Multinomial Naive Bayes
  • Averaged One-Dependence Estimators (AODE)
  • Bayesian Belief Network (BBN)
  • Bayesian Network (BN)

6. Clustering Algorithms

  • k-Means
  • k-Medians
  • Expectation Maximisation (EM)
  • Hierarchical Clustering

7. Association Rule Learning Algorithms

  • Apriori algorithm
  • Eclat algorithm

8. Artificial Neural Network Algorithms

  • Perceptron
  • Back-Propagation
  • Hopfield Network
  • Radial Basis Function Network (RBFN)

9. Deep Learning Algorithms

  • Deep Boltzmann Machine (DBM)
  • Deep Belief Networks (DBN)
  • Convolutional Neural Network (CNN)
  • Stacked Auto-Encoders

10. Dimensionality Reduction Algorithms

  • Principal Component Analysis (PCA)
  • Principal Component Regression (PCR)
  • Partial Least Squares Regression (PLSR)
  • Sammon Mapping
  • Multidimensional Scaling (MDS)
  • Projection Pursuit
  • Linear Discriminant Analysis (LDA)
  • Mixture Discriminant Analysis (MDA)
  • Quadratic Discriminant Analysis (QDA)
  • Flexible Discriminant Analysis (FDA)

11. Ensemble Algorithms

  • Boosting
  • Bootstrapped Aggregation (Bagging)
  • AdaBoost
  • Stacked Generalization (blending)
  • Gradient Boosting Machines (GBM)
  • Gradient Boosted Regression Trees (GBRT)
  • Random Forest

12. Other Algorithms

  • Computational intelligence (evolutionary algorithms, etc.)
  • Computer Vision (CV)
  • Natural Language Processing (NLP)
  • Recommender Systems
  • Reinforcement Learning
  • Graphical Models

DSC Resources

Additional Reading

Follow us on Twitter: @DataScienceCtrl | @AnalyticBridge

Business Intelligence e Big Data

Pubblicato il Lascia un commentoPubblicato in Business Intelligence, Data Mining

Polimi: Analytics in Italia, un mercato da oltre 900 milioni. Data Scientist in un’azienda su 3

La crescita totale è del 15%: la parte Business Intelligence vale 722 milioni (+9%), quella Big Data 183 milioni (+44%). Nelle grandi imprese l’87% della spesa, ma solo l’8% è a buon punto nella trasformazione in Big Data Enterprise. Data Monetization: il 7% vende i propri dati. I responsi dell’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano

di Daniele Lazzarin

BUSINESS INTELLIGENCE E BIG DATA

30 Novembre 2016

Il mercato degli Analytics nel 2016 in Italia è cresciuto del 15%, raggiungendo un valore complessivo di 905 milioni di euro. La Business Intelligence rimane la componente preponderante con 722 milioni (+9% in un anno), ma la parte Big Data (183 milioni), è cresciuta addirittura del 44%. Gran parte del mercato è fatto dalle grandi imprese (87% della spesa complessiva), con il restante 13% proveniente dalle PMI.

Sono i dati di sintesi dell’edizione 2016 dell’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano, che ha coinvolto attraverso una survey oltre 950 CIO e analizzato oltre 300 player dell’offerta tramite interviste dirette o fonti secondarie.

«Cresce il mercato e cresce la consapevolezza delle aziende italiane delle opportunità: il 39% dei CIO italiani vede Business Intelligence, Big Data e Analytics come priorità di investimento principale nel 2017 per l’innovazione digitale – ha detto Carlo Vercellis, Responsabile Scientifico dell’Osservatorio -. Ma emerge anche la necessità di nuove competenze e modelli organizzativi, di approcci tecnologici diversi e di un orizzonte progettuale di lungo periodo: il processo di trasformazione delle imprese italiane in “Big Data enterprise” sarà ancora lungo».

La crescita del mercato Analytics, continua Vercellis, conferma come la capacità di diventare una ‘data driven company’ sia una necessità, per rispondere ai repentini cambiamenti del mercato. «Big Data è un’espressione che ricorre in oltre metà dei documenti di accompagnamento del bilancio delle aziende quotate, a partire da Enel, Generali, Mediobanca, ENI, Pirelli, che con accenti diversi esprimono tutte forte interesse per il tema».

Siamo in una fase di passaggio cruciale, ha detto il docente, dalla fase 1.0 di Analytics e Big Data alla fase 2.0, «cioè dai progetti a macchia di leopardo in singoli ambiti, a una roadmap per usare sistematicamente i dati per migliorare le performance dell’intera impresa: abbattere costi operativi (per esempio con la predictive maintenance), ridurre i tempi di attraversamento in fabbrica, personalizzare i servizi o prodotti con i dati “Internet of people”, migliorare advertising ed eCommerce con lo studio dei comportamenti dei consumatori, e infine anche “monetizzare i dati”, cioè vendere servizi a valore aggiunto ad altre aziende basati appunto sui dati raccolti e sulle analisi fatte».

Le grandi imprese si stanno muovendo nella direzione giusta, con attenzione del top management e spesa in soluzioni Big Data e Analytics in crescita, ha aggiunto Alessandro Piva, Responsabile della ricerca dell’Osservatorio. «Lo stesso non si può dire delle PMI, che coprono oggi solo il 13% del mercato e sono in ritardo nella creazione di competenze e modelli di governo delle iniziative di analytics, e nella conoscenza delle opportunità».

Grandi imprese, i settori più attivi sono bancario e manifatturiero

Le soluzioni “descriptive analytics” (strumenti per descrivere situazione attuale e passata di processi o aree funzionali) sono ormai un dato di fattonell’89% delle grandi imprese italiane (oltre 249 addetti). Nell’80% dei casi l’utilizzo è a regime almeno su alcuni ambiti applicativi. I predictive analytics (strumenti avanzati per rispondere a domande su cosa potrebbe accadere nel futuro) registrano una diffusione ampia, ma ancora confinata ad alcuni ambiti applicativi (30%) o in fase di pilota (29%). Ancora molto indietro i prescriptive analytics(tool avanzati che propongono soluzioni operative, strategiche sulla base delle analisi fatte) e gli automated analytics (tool capaci di implementare da soli le azioni proposte, scaturite dalle analisi effettuate) presenti rispettivamente nel 23% e nel 10% delle grandi organizzazioni, perlopiù a livello di pilota.

Alcuni settori di applicazione già avanzata degli automated analytics sono Trading, Travel(per esempio per la gestione prezzi dei biglietti aerei), Manufacturing e soprattutto Automotive, «dove ci sono già pesanti investimenti ma alcuni progetti si sono arenati per perplessità sul controllo. Stiamo consgnando le chiavi del controllo agli algoritmi, e questo pone grandi problemi etici, anche se va detto che siamo molto lontani da HAL 9000 di “2001 Odissea nello Spazio”: questi algoritmi sono fatti per task estremamente specifici, non sono in grado di fare ragionamenti generali», ha sottolineato Vercellis.

Tutto sommato comunque da questi dati emerge che l’adozione di sistemi di Analytics è una pratica ormai consolidata, ma solo l’8% delle grandi imprese si può definire a buon punto nel processo di trasformazione in “Big Data Enterprise”. Il 26% è allo stadio iniziale, mentre il 66% è in posizione intermedia, con governance già in fase avanzata per alcuni aspetti e ancora da avviare per altri. Il settore che più investe in Analytics è il bancario (29%), seguito da manifatturiero (22%), telecomunicazioni e media (14%), Pubblica Amministrazione e sanità (8%), altri servizi (8%), GDO (7%), utility e assicurazioni (6%). Nella crescita degli investimenti trainano invece le assicurazioni (+25%), seguite da manifatturiero, banche e utility, fra 15% e 25%.

Data Monetization: nuove fonti di ricavo dalla vendita dei dati

Il 32% delle imprese italiane dichiara di acquistare dati da integrare con quelli raccolti direttamente per la Data Monetization, la generazione di nuovi ricavi attraverso la vendita o lo scambio dei dati. Acquistano soprattutto dati relativi all’andamento del mercato di riferimento o al comportamento dei consumatori. Al momento solo il 7% dichiara di vendere i propri dati, ma il 26% afferma di essere in fase valutativa.

Il maggiore ostacolo alla Data Monetization, in particolare quella diretta, è l’autorizzazione del trattamento per le finalità dichiarate, la cui definizione è un momento cruciale, in cui è necessario avere chiaro lo scopo dell’analisi e la finalità di vendita dei dati raccolti.

Data Scientist, uno su 4 lavora in un team aziendale dedicato ai Big Data

L’Osservatorio poi per il terzo anno ha analizzato la diffusione del Data Scientist, una delle nuove figure professionali più ricercate in assoluto sul mercato del lavoro. Nel 2016, tre grandi aziende italiane su 10 hanno in organico figure di data scientist, una quota stabile rispetto allo scorso anno. Ma aumenta la codifica formale di questo ruolo (7% dei casicontro il 4% nel 2015). E crescono del 57% i full time equivalent allocati.

I ricercatori del Politecnico hanno anche realizzato un sondaggio internazionale su 280 Data Scientist, da cui emerge un’età media di 35 anni, che sale a 40 negli USA, dove queste competenze sono diffuse da più tempo e lo stipendio supera spesso i 100mila dollari, mentre in Europa le retribuzioni sono più basse. I data scientist lavorano in settori molto diversi: il 26% in quello iCT, il 16% in Banche e Assicurazioni, il 14% nella PA e Sanità, il 20% nei Servizi, il 6% in Consulenza e il restante si suddivide tra GDO, Manifatturiero, Telco e Media, Advertising e Utility. E anche la loro collocazione in azienda è molto varia. Il 27% lavora nel settore IT, il 26% in un’unità funzionale tradizionale (Marketing, Operations, Finance o R&D) e ben il 26% in una funzione specifica per i Big Data. Un ulteriore 15% è consulente esterno.

“Big Data Awards” a Generali e RCS Media Group

L’Osservatorio ha anche assegnato i Big Data Innovation Award, che quest’anno sono andati ad Assicurazioni Generali e RCS Media Group.

Generali ha vinto per il modello di governance innovativo nella gestione della Data Science, con la creazione dell’Analytic Solution Center che realizza un approccio multidisciplinare coinvolgendo diversi dipartimenti nel team di progetto. RCS MediaGroup ha ottenuto il riconoscimento per un modello armonizzato di gestione dei Big Data, grazie a una piattaforma su misura che permette di sviluppare progetti specifici e adattarsi alle necessità delle diverse aree digitali del Gruppo.

Infine l’Osservatorio ha dedicato specifici approfondimenti anche alle PMI (investimenti dedicati ad analytics e Big Data) e alle startup attive in questi campi: temi su cui torneremo con articoli ad hoc prossimamente.

PowerBi Implementare Totali non disponibili – Dax language

Pubblicato il Lascia un commentoPubblicato in Business Intelligence, PowerBI Microsoft

Implement Non Visual Totals with Power BI security roles

This article describes how to implement non-visual-totals with security roles in Power BI and Analysis Services Tabular, which by default show only visual totals of measures in the model.

In Power BI and Analysis Services Tabular, you can create security roles in a data model so that each user only sees a subset of the data of certain tables. Such a restriction can be applied on one or more tables, but it propagates to other tables in the data model according to the properties of the relationships. As a result, the measure aggregates only the visible rows of the model, and a user cannot see the values of hidden rows in any way. This scenario is called Visual Totals: the aggregated measures only include data visible also in detail.

There are cases where you want to hide values of measures at certain levels of details, making their aggregated value visible at higher levels. In this case, you want to include the details that are hidden according to the security settings. This scenario is called Non Visual Totals, and it would be the default behavior of security roles in SQL Server Analysis Services (SSAS) Multidimensional. However, both Power BI and SSAS Tabular provide Visual Totals only in their implementation of security roles. You can implement Non Visual Totals in Power BI and SSAS Tabular leveraging on calculated tables and DAX.

Consider the following data model, where the Customer table has a column Country, and you want to enable users to see the details of customers only for certain areas.

nonvisualtotals-01

In our example, we create security roles that only shows customers from certain continents or countries, but you might have similar rules applied to other columns of the same table.

nonvisualtotals-02

The following is the detailed list of security roles applied in this example.

Role Filter on Customer table
Asia Customer[Continent] = “Asia”
Australia Customer[Country] = “Australia”
Europe Customer[Continent] = “Europe”
North America Customer[Continent] = “North America”

When you use an administrator user, you can see the following result, where the Total row corresponds to the sum of all the continents.

nonvisualtotals-03

If you use a user belonging to both Europe and North America security roles, the same report will show the following result, where the Total row is different from the previous report and corresponds to the sum of the visible continents:

nonvisualtotals-03b

The last report shows Visual Totals. You can see the filter over the totals even if you create a reports using other attributes, such as the customer’s country visible in the following report.

nonvisualtotals-04

If you want to display the Non Visual Totals, in the last two reports you would like to see in the Total row the sum of all the countries and continents, including those that are not visible, obtaining the same number of the Total row you have seen in the first report (which shows three continents, including Asia).

The initial definition of the measures that produces the Visual Totals is the following:

1
2
3
4
5
6
7
8
Sales[Cost] :=
SUMX ( Sales, Sales[Quantity] * Sales[Unit Cost] )
Sales[Revenues] :=
SUMX ( Sales, Sales[Quantity] * Sales[Net Price] )
Sales[Margin] :=
[Revenues] - [Cost]

In order to display Non Visual Totals, you have to store in a hidden table the aggregated values obtained ignoring the entity that is subject to security filters. In this example, you have to create a table that contains the values of Cost and Revenues measures aggregating all the customers by Product, Store, and Date. Such a table can be evaluated using a calculated table, which has access to all the rows of the Sales table because it is generated when you refresh the data model. You can define a SalesNoProducts table using the following expression:

1
2
3
4
5
6
7
8
SalesNoProducts =
SUMMARIZECOLUMNS (
    Sales[StoreKey],
    Sales[ProductKey],
    Sales[Order Date],
    "LineCost", [Internal Cost],
    "LineRevenues", [Internal Revenues]
)

Such a table should be hidden in the data model, and connected to the Date, Store, and Product tables using single-filter direction relationships (bidirectional filters are a bad idea when you have multiple fact tables with shared dimensions in a data model). The following diagram shows the resulting data model.

nonvisualtotals-07

At this point, you can rename the original Revenues and Cost measures in Internal Revenues and Internal Cost, respectively, and you can create new versions of Revenues and Cost that aggregates the table Sales if the Customer table has any filter, otherwise they aggregate SalesNoProducts when there are no filters over Customer, showing the total for all the customers including those that are not visible to the user.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Sales[Internal Cost] :=
SUMX ( Sales, Sales[Quantity] * Sales[Unit Cost] )
Sales[Internal Revenues] :=
SUMX ( Sales, Sales[Quantity] * Sales[Net Price] )
Sales[Revenues] :=
IF ( ISCROSSFILTERED( Customer ),
    [Internal Revenues],
    SUM ( SalesNoProducts[LineRevenues] )
)
Sales[Cost] :=
IF ( ISCROSSFILTERED( Customer ),
    [Internal Cost],
    SUM ( SalesNoProducts[LineCost] )
)

Using these new model and measures, any calculation that doesn’t filter any Customer will always display the total of all the customers as in the following example showing only details for Europe and North America, whereas the Total also include Asia.

nonvisualtotals-05

The purpose of this is more visible by looking at the report by country, where you do not see any country from Asia, but you still see their value included in the Total row.

nonvisualtotals-06

The goal of the Non Visual Totals is to hide the details of the customers excluded by security roles, without denying the visualization of their aggregated value. You can implement the same technique in any version of Analysis Services Tabular, even if for practical reasons the examples that you can download are provided in Power BI files (.pbix).

Algoritmi Data Mining

Pubblicato il Lascia un commentoPubblicato in Algoritmi Predittivi, Data Mining

datamining

Nella costruzione dei modelli di data mining bisogna scegliere gli algoritmi di calcolo in relazione al problema da risolvere.

Scelta di un algoritmo in base all’attività

Per facilitare la selezione di un algoritmo da utilizzare con un’attività specifica, nella tabella seguente sono disponibili suggerimenti sui tipi di attività per cui ciascun algoritmo viene utilizzato in modo tradizionale.

Esempi di attività Algoritmo Microsoft da utilizzare
Stima di un attributo discreto:

Contrassegnare i clienti in un elenco di potenziali acquirenti come buone o scarse possibilità.

Calcolare la probabilità di un errore del server entro i prossimi sei mesi.

Suddividere in categorie i risultati dei pazienti ed esplorare i fattori correlati.

Algoritmo Microsoft Decision Trees

 Algoritmo Microsoft Naive Bayes

 Algoritmo Microsoft Clustering

 Algoritmo Microsoft Neural Network

Stima di un attributo continuo:

Prevedere le vendite del prossimo anno.

Stimare i visitatori del sito in base a tendenze storiche passate e stagionali.

Generare un punteggio di rischio in base ai dati demografici.

Algoritmo Microsoft Decision Trees

 Algoritmo Microsoft Time Series

 Algoritmo Microsoft Linear Regression

Stima di una sequenza:

Eseguire un’analisi clickstream del sito Web di una società.

Analizzare i fattori che portano a un errore del server.

Acquisire e analizzare sequenze di attività durante le visite dei pazienti in uscita, per formulare le procedure consigliate circa le attività comuni.

Algoritmo Microsoft Sequence Clustering
Ricerca di gruppi di elementi comuni nelle transazioni:

Utilizzare Market basket analysis per determinare la posizione del prodotto.

Suggerire prodotti aggiuntivi a un cliente per l’acquisto.

Analizzare i dati dei sondaggi provenienti dai visitatori a un evento, per scoprire quali attività o stand fossero correlati, per pianificare le attività future.

Algoritmo Microsoft Association Rules

 Algoritmo Microsoft Decision Trees

Ricerca di gruppi di elementi simili:

Creare gruppi di profili di rischi dei pazienti in base ad attributi quali i dati demografici e i comportamenti.

Analizzare gli utenti esplorando e comprando modelli.

Identificare i server che dispongono di caratteristiche di utilizzo simili.

Algoritmo Microsoft Clustering

 Algoritmo Microsoft Sequence Clustering

Digital Platform Trasformation

Pubblicato il Lascia un commentoPubblicato in Digital Trasformation

ICT, la spesa globale si sposta verso la digital transformation

Dal 30% nel 2015, la quota DX della spesa ICT supererà il 50% nel 2019. E per quasi 7 aziende europee su 10 è ormai una priorità di business.

digital-transformation

Secondo le previsioni di IDC, la spesa mondiale in tecnologie per la digital transformation (DX) supererà i 2.100 miliardi di dollari nel 2019, andando a pesare per oltre il 50% sul totale della spesa ICT mondiale attesa per quell’anno. Tra tre anni, quindi, la maggior parte degli investimenti aziendali in tecnologie informatiche sarà destinata ai processi digitali.

IDC sta in effetti registrando un progressivo spostamento della spesa ICT verso i progetti di digital transformation. La quota della spesa DX sul volume complessivo del mercato ICT si è assestata di poco sopra al 30% nel 2015 partendo dal 28% nel 2014, anno in cui IDC ha iniziato a monitorare il fenomeno. Ma già nel 2016, la componente DX è destinata a superare il 35%, per un valore di poco superiore ai 1.300 miliardi di dollari. Il trend individuato da IDC indica che la quota della spesa DX sul totale ICT supererà il 40% nel 2017 e arriverà a toccare il 52% nel 2019, quando oltrepasserà sensibilmente i 2.000 miliardi di dollari di valore.

IDC definisce digital transformation quel processo continuo attraverso il quale un’azienda apporta o si adatta a un cambiamento radicale nel proprio mercato (la cosiddetta “disruption”) facendo leva su tecnologie e competenze digitali per innovare modelli di business, prodotti e servizi, migliorando nel contempo l’efficienza operativa e le prestazioni aziendali. Il processo di digital transformation richiede cambiamenti abilitati dalla tecnologia a livello globale (non limitati quindi a una singola business unit) in almeno una delle seguenti cinque aree o discipline: l’organizzazione (la forza lavoro), la “omni-experience” (il cliente), il modello operativo (i modelli o i processi di business), le informazioni e infine la leadership.

Dal 2014, l’onda crescente della digital transformation ha spinto le aziende a indirizzare gli investimenti IT nelle quattro principali tecnologie della Terza Piattaforma – cloud, mobile, big data analytics e social – per iniziare a ridisegnare l’esperienza dei clienti, gestire i dati come veri elementi di differenziazione, creare inediti modelli di business, invece che limitarsi a ottimizzare processi già esistenti.

Un’indagine di IDC condotta recentemente tra le aziende europee evidenzia come la digital transformation venga vista dalla maggior parte delle organizzazioni proprio come un’opportunità unica per abilitare l’innovazione.

Il 66% delle aziende in Europa indica anzi la digital transformation come la principale priorità di business per i prossimi mesi.

Tra le aziende europee, rivela la medesima indagine di IDC, l’80% ha già individuato internamente un leader, ovvero un responsabile, per le attività di digital transformation. Nel 23% dei casi di tratta del CIO, nel 19% del CTO e nel 14% del CEO in prima persona. Seguono con percentuali più basse il CFO, il CDO e altri ruoli aziendali.

La funzione IT quindi – nella veste di CIO e CTO – mantiene ancora un ruolo di guida in questa importante e delicata fase, anche se ad essa viene richiesta una maggiore capacità d’integrazione con le LOB. Non a caso, il 65% delle aziende europee sottolinea come le linee di business risultino sempre più coinvolte nelle strategie IT.

Al tema della trasformazione digitale e del ruolo guida dell’IT in questo processo, IDC dedicherà il prossimo 29 settembre un nuovo evento a Milano, l’IDC Digital Transformation Conference 2016. Destinato ad accogliere importanti testimonianze italiane e internazionali, permetterà ad IDC di illustrare quali best practice stanno segnando la strada dell’innovazione digitale, fornendo agli ospiti presenti un quadro aggiornato sul grado di maturità digitale delle aziende e sui principali fenomeni in atto.

 

Business Trasformation

Pubblicato il Lascia un commentoPubblicato in Data Mining

ict-2016

Analytics culture per fare un vero salto di pensiero

Nel 2020 l’universo digitale raggiungerà i 40 zettabyte. Ormai è noto come l’immenso bacino informativo rappresenti sia un’opportunità di innovazione, sia una minaccia per la governance. Si inizia a parlare di algorithmic business: azioni e processi vengono definiti e regolati automaticamente sulla base di modelli matematici applicati ai dati provenienti dall’IoT e dai canali digitali. Tuttavia, la business transformation non richiede soltanto tecnologie potenti, ma anche Smart Mind, in grado di favorire la cultura analitica. Gli analytics, primo obiettivo nell’agenda dei CIO 2016*, diventano la chiave per gestire il caos informativo e rivoluzionare l’azienda, in termini di offerta e processi.

“Decidiamo spesso sulla base dell’intuito che razionalizziamo a posteriori, ma la soluzione vincente è stabilire da subito il giusto equilibrio tra razionalità e intuizione.”

Di Emanuela Sferco Regional Marketing Director SAS

Data Mining

Pubblicato il Lascia un commentoPubblicato in Data Mining

text_data_mining

Il data mining è quell’insieme di tecniche e metodologie che hanno per oggetto l’estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semi-automatici) e l’utilizzo scientifico, industriale o operativo di questo sapere.

Se esaminiamo come le modalità di analisi dei dati si sono evolute negli anni, notiamo come da indagini effettuate direttamente sulle fonti operazionali, si è passati, a partire dagli anni ’90, all’utilizzo di una base dati creata appositamente: il data warehouse.

Con il data warehouse e i database multidimensionali è possibile analizzare i dati non solo al massimo livello di dettaglio, ma anche a diversi livelli di aggregazione, e, inoltre, eseguendo operazione di drill-down o slicing e dicing si ottengono dinamicamente prospettive diverse del dato. Tuttavia si tratta sempre di una visione storica, che consente soltanto una valutazione a consuntivo di ciò che è accaduto nel passato, oppure di ciò che sta accadendo ora.

Più di recente, a partire dai primi anni 2000, ha cominciato ad affermarsi la necessità di effettuare analisi previsionali, per anticipare gli eventi e ottenere un vantaggio di business. La grande quantità di dati disponibili ha reso inoltre necessaria l’adozione di tecniche di analisi efficienti e in grado di lavorare su valori numerici, testuali o binari (per es. le immagini).
Le tecniche di analisi, a cui ci riferiamo, prendono il nome di data mining, poiché consentono di “scavare” nei dati ed estrarre informazioni, pattern e relazioni non immediatamente identificabili e non note a priori. Il data mining può essere utilizzato in qualsiasi settore economico.
Definizione tecnica di data mining e KDD
Le informazioni a disposizione creano in ambito aziendale la necessità di essere investigate. Le strategie formulate a livello aziendale hanno bisogno di essere convalidate sul piano quantitativo, basandosi sull’utilizzo di metodi o algoritmi.
La conoscenza però non è una risorsa facile da estrarre, in quanto deriva dall’applicazione di un processo che coinvolge molti settori (IT, marketing, finanza, risk management) che devono coesistere integrati.
Con il termine KDD (Knowlegde Discovery in Database) si intende tutto il processo di estrazione di conoscenza applicato ai database o anche in generale a delle informazioni o a dati non strutturati; in sintesi si può meglio dire che è il processo che estrae conoscenza da alcuni pattern generati dai dati.
Fasi dell’attività di KDD e data mining
Possiamo formalmente elencare il processo di KDD in questi passi :
• Selezione: estrazione di parte dei dati secondo alcuni criteri, i quali dipendono dall’obiettivo preposto all’analisi. Facendo riferimento alla metodologia statistica, si usa il termine campionamento dei dati.
Pre-elaborazione: “pulizia”dei dati da certe informazioni ritenute inutili e che possono rallentare le future interrogazioni. In questa fase, inoltre, i dati possono essere trasformati per evitare eventuali inconsistenze dovute al fatto che dati simili possono provenire da sorgenti diverse e quindi con metadati leggermente diversi (ad esempio in un database il sesso di una persona può essere salvato come `m’ o `f’ ed in un altro come 0 o 1).
Trasformazione: i dati non sono semplicemente trasferiti da un archivio ad uno nuovo, ma sono trasformati in modo tale che sia possibile anche aggiungere informazione a questi, come per esempio informazioni demografiche comunemente usate nella ricerca di mercato. Quindi i dati vengono resi “usabili e navigabili”.
Data mining: questo stadio si occupa di estrarre dei modelli dai dati. Un modello può essere definito come segue: dato un insieme di fatti (i dati) F, un linguaggio L ed alcune misure di certezza C, un modello è una dichiarazione S nel linguaggio L che descrive le relazioni che esistono tra i dati di un sottoinsieme G di F con una certezza e tale che S sia più semplice in qualche modo della enumerazione dei fatti contenuti in G.
• Interpretazione e valutazione: i modelli identificati dal sistema vengono interpretati cosicché la conoscenza che se ne acquisisce può essere di supporto alle decisioni, quali ad esempio la previsione, la classificazione di elementi, il riassunto dei contenuti di un database o la spiegazione dei fenomeni osservati.
Definizioni Tecniche liberamente estratte dal libro Data Mining Metodi e strategie di Dulli, Furlini, Peron edito da Springer.