In un mondo iperconnesso e iperdigitalizzato come quello in cui viviamo oggi, vengono generati miliardi di dati ogni giorno.

Soprattutto all’interno dei database aziendali, i dati vengono continuamente aggiornati, modificati a seconda delle diverse attività svolte in azienda.

Spesso tutte queste informazioni vengono registrate all’interno dei singoli database, ognuno con la propria sintassi e le proprie regole e sintassi e c’è la necessità che vengano aggiornate rapidamente  anche altre basi dati o le applicazioni, in modo tale da mantenere allineate con informazioni corrette e utili con cui il business può valutare velocemente le proprie strategie e prendere le proprie decisioni.

Per rendere possibile tutto questo vengono utilizzate tecnologie di Change Data Capture, tra le quali uno dei tool principali è Debezium.

Andiamo a scoprire assieme nel dettaglio cos’è la data Change Data Capture e come Debezium sia uno dei migliori strumenti per gestire tale tecnologia.

Cos’è la Change Data Capture?

La Change Data Capture è una sofisticata tecnologia per la replica e il caricamento dei dati in grado di ridurre i tempi e le risorse necessari ai programmi di data integration e di semplificare l’integrazione dei dati in tempo reale all’interno dell’azienda. Grazie alla capacità di rilevare i nuovi record modificati nelle sorgenti di dati, basandosi sui transaction log, e di propagare tali modifiche all’interno su sistemi di code o database di destinazione, la tecnologia CDC è in grado di ridurre sensibilmente la necessità di eseguire aggiornamenti delle fonti dato su vasta scala, sia che si tratti di DWH, sia che si tratti di code o di OLTP.

La Change Data Capture si differenzia dalle altre tecnologie di Data Integration principalmente per due aspetti:

  • rispetto alle metodologie che utilizzano il polling, attivandosi quindi ad intervalli regolari indipendentemente dalla presenza o meno di cambiamenti nei dati, la Change Data Capture si attiva solamente quando c’è un’effettiva modifica dei dati, riducendo quindi l’impiego di risorse solo a quando strettamente necessario;
  • rispetto alle metodologie che effettuano caricamenti e importazioni massive, la Change Data Capture a tempi di esecuzioni molto più contenuti, non pesando eccessivamente sulle performance dei database e garantendo un allineamento tra le diverse basi dati in realtime.

I vantaggi della Change Data Capture

I processi di integrazione dei dati tradizionali, come scritto in precedenza, non possono soddisfare le odierne esigenze in termine di dati, al contrario della tecnologia moderna e automatizzata. 

Una tecnologia fondamentale per la modernizzazione dell’ambiente dei dati è la Change Data Capture (CDC), che individua e acquisisce continuamente i cambiamenti incrementali ai dati e alle strutture di dati da una o più sorgenti e li replica in una o più destinazioni, dove i dati possono essere trasformati e trasmessi alle applicazioni di analytics. 

Se progettata e implementata correttamente, la Change Data Capture permette il trasferimento di dati efficiente e a bassa latenza agli utenti operativi e delle analytics, soddisfacendo tutti i requisiti odierni di scalabilità, trasmissione in tempo reale e impatto zero. 

Ma quali sono i vantaggi principali rispetto a un processo tradizionale batch?

  • Prendere decisioni più rapide e accurate permettendo agli utenti di sfruttare i dati più attuali disponibili.
  • Ridurre al minimo le interruzioni dei carichi di lavoro di produzione inviando gli aggiornamenti incrementali delle sorgenti alle destinazioni di analytics.
  • Risparmiare tempo e ridurre i costi eliminando la necessità di trasferire archivi di dati di dimensioni sempre maggiori dalle sedi on-premise al cloud.
  • Liberare risorse qualificate per progetti aziendali di più alto valore, eliminando la necessità di scripting manuale.

Change Data Capture con Debezium

Tra i molteplici tool per la Change Data Capture, uno tra i più famosi e affidabile è Debezium.

Debezium è un insieme di servizi distribuiti open source che acquisiscono le modifiche del database dai transaction log in modo che le applicazioni possano vedere e rispondere a tali modifiche, senza necessità di creazione di trigger o altre strutture secondarie. 

Debezium registra quindi le modifiche tipicamente su un sistema di code (kafka / pub/sub/kinesis, ecc.), rendendo quindi la modifica accessibile da più consumatori. Ogni applicazione interessata poi legge semplicemente i registri delle transazioni a cui è interessata e vede tutti gli eventi nello stesso ordine in cui si sono verificati.

Debezium può replicare qualsiasi numero di database, sia SQL che NOSQL.

Tra questi citiamo i più famosi :

  • Oracle
  • SqlServer
  • PostgreSQL
  • MySQL
  • MongoDB 
  • Cassandra

Noi di Miriade siamo professionisti del dato e guidiamo i nostri clienti nella scelta della tecnologia migliore per la Data Integration e la Change Data Capture

Vuoi conoscere meglio i nostri servizi?

microsoft power bi e knime

I servizi per la data integration di Miriade

servizi gdpr

Scopri come migliorare la produttività del team