Costruzione di un Data Product Scalabile per l'Analisi Comportamentale nel Fashion Luxury con dbt e AI
L'azienda raccoglieva dati grezzi tramite Google Analytics 4 (GA4), accumulando miliardi di interazioni. Tuttavia, l'architettura esistente basata su tradizionali strumenti di Business Intelligence e visualizzazione (come Qlik e Denodo) non era in grado di elaborare direttamente questi volumi.
Il tentativo di effettuare aggregazioni complesse o join su serie storiche complete portava i sistemi di frontend al crash o a tempi di latenza inaccettabili. Di fatto, i dati esistevano ma erano "bloccati", impedendo al team marketing ed e-commerce di ottenere insight su segmentazione utenti, funnel di conversione e performance per area geografica (EMEAI, APAC, AMER, CHINA).
- Collo di bottiglia computazionale: I tool di visualizzazione (Qlik/Denodo) non potevano fungere da motore di calcolo per miliardi di righe.
- Mancanza di storicità: Impossibilità di analizzare trend storici profondi senza compromettere le prestazioni.
- Manutenzione complessa: Assenza di versionamento del codice SQL e documentazione frammentata, che rendeva difficile l'onboarding di nuove risorse e la manutenzione delle logiche di business.
- Limiti nell'analisi predittiva: L'impossibilità di preparare dataset puliti e strutturati impediva l'applicazione di algoritmi di Machine Learning per la clusterizzazione degli utenti.
L'aspetto cruciale di questo Case Study è il cambio di paradigma da semplice ETL a "Data Product". Non si tratta solo di spostare dati, ma di creare un prodotto dati certificato, documentato e pronto all'uso. Grazie all'approccio "Documentation-First" e all'architettura modulare, il tempo di onboarding per i nuovi sviluppatori è stato ridotto del 70%. Inoltre, l'introduzione di logiche di incremental strategy ha permesso di elaborare solo i nuovi dati giornalieri, abbattendo drasticamente i costi di calcolo su BigQuery e garantendo dati freschi con un ritardo massimo (latency) controllato e monitorato.
Per superare i limiti infrastrutturali e abilitare analisi avanzate, è stata implementata una Modern Data Stack basata sul cloud. L'intervento ha coperto l'intera catena del valore del dato:
- Data Transformation Layer (dbt Labs): Adozione di dbt (data build tool) per spostare la logica di trasformazione all'interno del Data Warehouse. È stata implementata un'Architettura Medallion (Bronze/Landing, Silver/Private, Gold/Public) che garantisce la pulizia progressiva del dato e la separazione delle responsabilità.
- Orchestrazione e Automazione: utilizzo di Airflow per schedulare le pipeline e gestire le dipendenze, assicurando che i dati siano aggiornati e disponibili ogni mattina per il business.
- Quality Assurance & CI/CD: integrazione di SQLFluff per la standardizzazione del codice e GitHub per il version control. Sono stati implementati alert automatici (via Slack) per freschezza dei dati, fallimento dei test o superamento delle soglie di costo.
- Evoluzione AI (Clustering Comportamentale): sulla base dei dati puliti e strutturati, è in fase di implementazione un modulo di Vertex AI / BigQuery ML. Utilizzando algoritmi unsupervised in Python, il sistema sarà in grado di autodeterminare i cluster di comportamento degli utenti, superando la segmentazione manuale e fornendo input avanzati ai sistemi di frontend.
Diamo ora uno sguardo nel dettaglio all'architettura Medallion.
- Raw GA4 Data
- Minimal ETL
- Data Ingestion
- Core Models
- Aggregations
- Brand Filter
- Business Views
- Country Enrich
- Consumer Ready
- dbt Core (v1.10+) – Framework di trasformazione che ha permesso di scrivere logiche complesse in SQL modulare, gestendo dipendenze e documentazione automatica.
- Google BigQuery – Data Warehouse serverless scelto per la sua capacità di scalare su petabyte di dati e per l'integrazione nativa con GA4.
- Apache Airflow – Piattaforma di orchestrazione per la gestione dei workflow e il monitoraggio delle pipeline.
- Python (v3.11+) – Utilizzato come runtime environment e per le future implementazioni di algoritmi di Machine Learning custom.
- SQLFluff & GitHub – Strumenti per il linting del codice e il versionamento (CI/CD), garantendo stabilità e qualità del software.
- Vertex AI / BigQuery ML – Suite per l'implementazione di modelli di Machine Learning (clustering unsupervised) direttamente sui dati residenti nel warehouse.