Continua il focus di Stamp sull’universo dei Big Data, quelle informazioni sensibili dei nostri gusti, desideri, dati personali che quasi inavvertitamente lasciamo “cadere” nel mondo virtuale. Oggi, con l’aiuto del nostro esperto Clemente Poccianti, puntiamo i riflettori sul Data Mining.
Firenze – I Big Data non avrebbero un senso se non venissero analizzati con una tecnica d’indagine che ha la capacità di estrapolare i dati dall’immenso oceano in cui essi giacciono; il Data Mining.
Il Data Mining, che in italiano si può tradurre in “estrapolazione dei dati”, è quel processo di estrazione e di selezione delle informazioni digitali utili al raggiungimento di un risultato di ricerca sia in campo scientifico che statistico che di analisi di mercato. Vengono estratti da delle banche dati di grandissime dimensioni con l’aiuto di complessi sistemi di algoritmi in grado di stabilire delle associazioni tra le varie informazioni digitali presenti in modo che siano poi trasformate in forma riconoscibile con un filo logico conduttore.
La funzione principale di questi algoritmi è quella di selezionare i dati utili da quelli inutili, questi ultimi sono quelli considerati inefficaci, non veritieri, obsoleti o troppo complessi da scomporre. Il processo di analisi nel Data Mining avviene tramite un sistema di associazioni che in termine tecnico per gli addetti ai lavori viene chiamato “pattern”. Esso indica la creazione di uno schema e di una rappresentanza di sistemi di dati fra loro correlati. Nello specifico i pattern sono delle sequenze di informazioni che seguono uno schema prestabilito, il lavoro sta nello svelare il meccanismo di funzionamento di questo schema dimostrando una correlazione fra l’insieme dei dati osservati.
I dati si possono trovare sotto forma di dati strutturati e di dati destrutturati. I primi sono quelli già confezionati in database e organizzati secondo schemi e tabelle rigide, un esempio di dati strutturati sono i database che danno informazioni un esempio delle schede compilate con nome, indirizzo, numero di telefono, ecc… I dati destrutturati sono i dati che si trovano senza uno schema definito.
Perchè utilizzare il Data Mining – Una delle funzioni del Data Mining, come abbiamo già ricordato, è quello di estrapolare dati utili per poi essere studiati a seconda di quello che vogliamo fare. Un esempio potrebbe essere una ricerca di mercato per esigenze di business, o fare un’indagine statistica su di un determinato argomento, oppure capire cosa la gente pensa in quel determinato ambito, o di quel determinato argomento.
Il Text Mining – Buona parte delle attività di Data Mining viene fatta con l’analisi di dati sotto forma di testi, gran parte delle banche dati disponibili hanno contenuti testuali. Il Text Mining ha una particolare funzione che individua una serie di parole messe in sequenza, i pattern appunto, che rivelano tutta una serie di informazioni raggruppate e collegate sotto uno specifico insieme tematico. Il Text Mining risulta essere particolarmente efficace per fare l’analisi di documenti che provengono da fonti molto diverse fra loro dando la possibilità di organizzare la ricerca in corso intercettando anche i contenuti meno visibili.
L’applicazione delle tecniche di Data Mining nel mondo aziendale come nella ricerca scientifica ha sempre più peso grazie al maggiore volume di informazioni digitali che si stanno depositando e che tutti noi produciamo spesso a nostra insaputa; si calcola che negli ultimi 8, 10 anni siano aumentati quasi di dieci volte.
I vantaggi – L‘attività di scavare in profondità nei dati fa aggiungere nuove conoscenze che sul piano strategico aiutano a prendere decisioni più valide. Sarà quindi possibile scoprire informazioni nascoste, trovare raggruppamenti significativi, identificare relazioni fra le attività e correggere gli errori passati, tutto questo porterà a chi ne fa uso dei vantaggi reali.
Nel mondo aziendale il Data Mining ha la capacità di evidenziare e classificare nuovi potenziali clienti; ottimizzare la produttività commerciale e la distribuzione delle risorse; prevedere un migliore rapporto dei costi benefici, creare nuovi business plan più reattivi al cambiamento dei tempi.