Come sa benissimo ogni data specialist, un progetto di analisi e di gestione dei dati parte obbligatoriamente da una fase di preparazione che deve essere svolta con attenzione e che richiede competenze specifiche.

Oltre ad essere tra le più importanti, questa fase del data journey è quella che tendenzialmente richiede maggior tempo rispetto a tutte le altre: tra integrazione dei dati, la loro pulizia e validazione, gli step sono numerosi e devono essere svolti senza errori.

Ad aiutare i data specialist ci sono numerosi tool sul mercato, tra i quali uno più recenti e performanti è AWS Glue DataBrew che consente di semplificare e velocizzare di circa l’80% l’attività di data preparation.

Ma andiamo con ordine.

In questo articolo parleremo di:

Microsoft Power BI e Knime

Cos’è la data preparation

La preparazione dei dati è il processo di pulizia e trasformazione dei dati grezzi prima dell’elaborazione e dell’analisi. È un passaggio essenziale e spesso comporta la riformattazione, l’esecuzione di correzioni e la combinazione di set di dati per arricchirli.

La preparazione dei dati è spesso un’impresa lunga, ma è essenziale come prerequisito per contestualizzare i dati al fine di trasformarli in approfondimenti ed eliminare i pregiudizi derivanti dalla loro scarsa qualità.

Ad esempio, il processo di preparazione di solito include la standardizzazione dei formati, l’arricchimento dei di origine e/o la rimozione degli outlier.

Secondo quanto riportato da Forbes, il 76% dei data scientist afferma che la data preparation è la parte peggiore del proprio lavoro, ma le decisioni aziendali efficienti e accurate possono essere prese solo con dati puliti. 

Quali sono i principali vantaggi della data preparation:

  • Correggere rapidamente gli errori, in quanto la preparazione dei dati aiuta a rilevare gli errori prima dell’elaborazione. Dopo che sono stati rimossi dalla fonte originale, questi errori diventano più difficili da comprendere e correggere.
  • Produrre dati di alta qualità grazie alla pulizia e la riformattazione dei dataset garantisce che tutti vengano utilizzati nell’analisi siano di alta qualità.
  • Prendere decisioni aziendali migliori, infatti i dati di qualità superiore possono essere elaborati e analizzati in modo più rapido ed efficiente portano a decisioni aziendali più tempestive, efficienti e di alta qualità.

Le fasi della Data Preparation

La strutturazione di un processo di data preparation può variare a seconda delle esigenze aziendale e dell’organizzazione dell’area IT, ma le fasi che lo compongono sono essenzialmente sei:

  1. Gather – Raccolta. I dati rilevanti vengono raccolti da innumerevoli fonti come sistemi operativi, data warehouse, fonti esterne e molte altre. In questa fase avviene la verifica per controllare la loro validità rispetto all’utilizzo che ne verrà fatto.
  2. Discover – Scoperta e profilazione. In questa seconda fase avviene la cosiddetta esplorazione dei dati raccolti per comprendere meglio cosa contengono e cosa è necessario fare per prepararli per gli usi previsti. La profilazione dei dati serve per identificare modelli, errori, anomalie, dati mancanti e altri attributi ed errori in modo che i problemi possano essere risolti prima che vengano utilizzati nei sistemi di analisi (rendendo poi invalidati i risultati).
  3. Clean – Pulizia. Gli errori nei dati identificati nella fase precedente sono corretti in questo terzo passaggio, fondamentale per creare set completi e accurati pronti per essere elaborati e analizzati. La pulizia prevede, per esempio, che gli errori vengano rimossi o corretti, che i valori mancanti vengano inseriti e le voci incoerenti vengano armonizzate.
  4. Transform – Strutturazione. In relazione alla strutturazione dei dati, spesso devono essere trasformati per renderli coerenti e trasformarli in informazioni utilizzabili. A questo punto, dunque, devono essere strutturati, modellati e organizzati in un formato unificato che soddisfi i requisiti degli usi analitici pianificati.
  5. Enrich – Arricchimento. L’arricchimento consiste nell’aggiunta e nel collegamento dei dati con altre informazioni correlate per fornire approfondimenti. L’arricchimento e l’ottimizzazione migliorano ulteriormente i dataset necessari perché possano poi produrre, attraverso la loro elaborazione ed analisi, le informazioni aziendali utili al business o ad altri processi operativi.
  6. Store – Convalida e pubblicazione. Per completare il processo di preparazione, vengono eseguite routine automatiche per convalidare la coerenza, la completezza e l’accuratezza. I dati preparati vengono quindi archiviati in un data warehouse, un data lake o altri repository e resi disponibili per l’uso da parte delle applicazioni aziendali.

Cos’è AWS Glue DataBrew

Come scritto in precedenza, un progetto di data preparation è spesso complesso e composto da attività delicate che devono essere eseguite correttamente al fine di poter avere risultati veritieri e utili dalle analisi sui dati processati.

Davvero un sacco di lavoro! Per questo AWS ha reso disponibile AWS Glue DataBrew, uno strumento visivo di data preparation che aiuta a pulire e normalizzare i dati fino all’80% più velocemente in modo da consentire ai data specialist concentrare maggiormente sul valore aziendale che possono ottenere.

DataBrew fornisce un’interfaccia visiva che si connette rapidamente ai dati archiviati in Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Relational Database Service (RDS), qualsiasi datastore accessibile JDBC o ai dati indicizzati da AWS Glue Data Catalog. È quindi possibile esplorare, cercare modelli e applicare trasformazioni. 

Ad esempio, è possibile unire diversi dataset o utilizzare funzioni di manipolazione.

Una volta preparati i dati, si può utilizzarli immediatamente con AWS e servizi di terze parti per ottenere ulteriori informazioni, come Amazon SageMaker per l’apprendimento automatico, Amazon Redshift e Amazon Athena per l’analisi e Amazon QuickSight e Tableau per la Business Intelligence.

AWS Glue DataBrew è quindi un tool visivo per la data preparation che semplifica la pulizia e la normalizzazione dei dati per prepararli all’analisi e all’apprendimento automatico. Si può scegliere tra oltre 250 trasformazioni predefinite per automatizzare le attività di preparazione dei dati, il tutto senza la necessità di scrivere alcun codice. C’è inoltre la possibile automatizzare il filtraggio delle anomalie, la conversione dei dati in formati standard, la correzione di valori non validi e altre attività. Una volta pronti, i dati sono immediatamente utilizzabili, con il vantaggio, come per tutti gli altri tool AWS di pagare solamente per l’effettivo utilizzo.

Miriade lavora da anni al fianco delle aziende per aiutarle a ottenere il massimo dai propri dati.
Sei pronto a iniziare a diventare davvero data-driven?

servizi gdpr

Scopri come proteggere i tuoi dati!

microsoft power bi e knime

I servizi per la data integration di Miriade